2013-03-06 5 views
4

문자열과 해당 문자열이 속한 클래스의 쌍으로 구성된 데이터 세트가 있습니다. 문자열이 문장입니다. 수업은 '남성'또는 '여성'이 될 수 있습니다. 예 -Weka의 문자열 데이터 및 분류 작업

'안녕하세요. 내 이름은 Jack '입니다. 남성

다른 세트의 문자열이 주어지면이 세트가 남성 또는 여성에서 나온 것인지를 분류 할 수 있도록 이것을 훈련 세트로 사용하고 있습니다. WEKA의 stringtowordvector을 사용하여 해당 문자열의 단어 수가 포함 된 벡터로 문자열을 변환하고 있습니다. 결과 arff를 사용하여 내가 분류되지 않은 데이터 세트에서 사용할 수있는 예측 알고리즘 (의사 결정 트리)을 생성하고 싶습니다. 어떻게하면됩니까? 어떤 분류 기준을 사용해야합니까? 그리고이 다른 시나리오에서 다른 사전 처리 기법이 도움이 될까요?

답변

4

아마도 시작하기에 좋은 장소는 웨카 홈페이지에서 간단한 메시지 분류 예 (codewiki) 예를 것, 또는 Text Categorization Wiki 어쩌면 .

거의 모든 선별기가 좋은 출발점이 될 것입니다. 좋은 출발점으로 Logistic Regression 또는 Support Vector Machines을 제안 할 것입니다.

+0

로지스틱 회귀 및 지원 벡터 기계 링크가 손상되었습니다. –

+0

@willmuphyscode 이제 수정되었습니다. – tdc