Weka 이슈로 텍스트 분류

저는 텍스트 분류에서 새로운데, 저는 이것을 WEKA로 알고 싶습니다. 아래 ARFF 파일과 같은 감독 교육 세트를 만들어야합니까? 나는 그것을 수동으로 바로해야만 하는가? 그리고이 후, 내가 뭘해야합니까? Naive Bayes Classifier를 사용하여 테스트 세트의 범주를 예측 하시겠습니까?Weka 이슈로 텍스트 분류

@relation test 
@attribute text String 
@attribute politics {yes,no} 
@attribute religion {yes,no} 
@attribute another_category {yes,no} 

@data 
"this is a text about politics",yes,no,no 
"this text is about religion",no,yes,no 
"this text mixes everything",yes,yes,yes

출처

2014-11-27 user273686

ARFF를로드했으면 StringToWordVector을 적용하여 단어 목록을 작성할 수 있습니다. 거기에서 분류 자 (예 : Naive Bayes)를 사용하여 클래스를 예측할 수 있습니다 (분류 자의 입력으로 사용되지 않도록 다른 속성을 필터링해야 할 수도 있음).

희망이 도움이됩니다.

출처

2014-11-27 23:59:54

감사합니다.하지만 분류되지 않은 텍스트를 예측하기 위해 분류 프로그램을 어떻게 사용할 수 있습니까? 그것은 훈련 세트와 시험 세트가 동일한 속성을 가져야 함을 말해줍니다. (그러나 나는 훈련 세트에 대해서만 텍스트를 수동으로 표시했습니다.) – user273686

훈련 세트와 시험 세트는 동일한 속성을 포함해야합니다. 모두 정의되어 있고 오류가 없어야합니다 (교육 및 테스트 데이터를 별도로 작성 했습니까?) –

감사합니다! 별도로 빌드하려고했지만이 오류가 있습니다. http://stackoverflow.com/questions/27425952/weka-batch-filtering-stringtowordvector – user273686

Weka 이슈로 텍스트 분류

답변

관련 문제