Weka의 문자열 데이터 및 분류 작업

문자열과 해당 문자열이 속한 클래스의 쌍으로 구성된 데이터 세트가 있습니다. 문자열이 문장입니다. 수업은 '남성'또는 '여성'이 될 수 있습니다. 예 -Weka의 문자열 데이터 및 분류 작업

'안녕하세요. 내 이름은 Jack '입니다. 남성

다른 세트의 문자열이 주어지면이 세트가 남성 또는 여성에서 나온 것인지를 분류 할 수 있도록 이것을 훈련 세트로 사용하고 있습니다. WEKA의 stringtowordvector을 사용하여 해당 문자열의 단어 수가 포함 된 벡터로 문자열을 변환하고 있습니다. 결과 arff를 사용하여 내가 분류되지 않은 데이터 세트에서 사용할 수있는 예측 알고리즘 (의사 결정 트리)을 생성하고 싶습니다. 어떻게하면됩니까? 어떤 분류 기준을 사용해야합니까? 그리고이 다른 시나리오에서 다른 사전 처리 기법이 도움이 될까요?

출처

2013-03-06 user2138515