자바 용 LIBSVN 라이브러리를 사용한 텍스트 분류 용 SVM

일련의 텍스트 문서에서 SVM 모델을 교육하고 모델을 기반으로 새 문서를 분류하는 Java 응용 프로그램을 작성하려고합니다. 이 일을 할 수있는 java 패키지를 많이 둘러 보았고 libsvm 구현이 가장 적합하다는 것을 알았습니다.자바 용 LIBSVN 라이브러리를 사용한 텍스트 분류 용 SVM

1) 내 훈련 입력은 본질적으로 문서 텍스트와 올바른 라벨이있는 텍스트 파일입니다. libsvm 패키지는 현재 숫자 데이터에서만 작동한다는 것을 의미합니다. 즉, 텍스트 파일과 기능 (단어)을 숫자 형식으로 변환해야한다는 것을 의미합니다. TF-IDF는 이것을 할 수있는 좋은 방법입니까? TF-IDF를 생성 할 수있는 Java 라이브러리가 있습니까?

) 데이터는 특징은 문서의 단어 형태 제 경우

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>

에서 모델로 공급되어야하며 값이 TF-IDF 값이다. 내 해석이 옳은가?

libsvm이 사용 된 유사한 예제가 있습니까? 나는 약간의 검색을했으나 행운이 전혀 없었다!

출처

2013-07-15 Josh Cher Man

몇 가지 예가 있습니다. LIBSVM data set page에있는 rcv1 데이터 세트를 확인할 수 있습니다. 이것은 문서 분류 데이터 세트입니다 (이미 LIBSVM 표현의 TF-IDF 형식 임). 해당 주제에 대한 많은 논문이 있습니다 (예 : Text Categorization with Support Vector Machines by Joachims).

출처

2013-07-15 20:37:40

자바 용 LIBSVN 라이브러리를 사용한 텍스트 분류 용 SVM

답변

관련 문제