2013-07-15 2 views
0

일련의 텍스트 문서에서 SVM 모델을 교육하고 모델을 기반으로 새 문서를 분류하는 Java 응용 프로그램을 작성하려고합니다. 이 일을 할 수있는 java 패키지를 많이 둘러 보았고 libsvm 구현이 가장 적합하다는 것을 알았습니다.자바 용 LIBSVN 라이브러리를 사용한 텍스트 분류 용 SVM

1) 내 훈련 입력은 본질적으로 문서 텍스트와 올바른 라벨이있는 텍스트 파일입니다. libsvm 패키지는 현재 숫자 데이터에서만 작동한다는 것을 의미합니다. 즉, 텍스트 파일과 기능 (단어)을 숫자 형식으로 변환해야한다는 것을 의미합니다. TF-IDF는 이것을 할 수있는 좋은 방법입니까? TF-IDF를 생성 할 수있는 Java 라이브러리가 있습니까?

2

) 데이터는 특징은 문서의 단어 형태 제 경우

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n> 

에서 모델로 공급되어야하며 값이 TF-IDF 값이다. 내 해석이 옳은가?

libsvm이 사용 된 유사한 예제가 있습니까? 나는 약간의 검색을했으나 행운이 전혀 없었다!

답변