NLP 문제점이 있으며 SVM과 함께 WEKA로 분류 할 계획입니다. 단어를 분류하려고합니다. POS 태그 세트에는 24 개의 태그가 있고 기본 구문 청크 (BPC) 태그 세트에는 15 개의 태그가 있습니다.WEKA의 SVM 교육을위한 공칭 속성의 공칭 값의 최대 수는 얼마입니까?
하지만 필자는 "기능 세트"를 가지고 있으며 각 단어를 각 기능마다 분류하려고합니다.
첫 번째 기능 세트는 {POS}이므로 공칭 속성 POS에 대해 24 개의 공칭 값이됩니다. 두 번째는 {POS + BPC}이므로 POS + BPC 명목 속성의 24 * 15 = 375 공칭 값이됩니다. 이것이 가능하다면 난 그냥 궁금 해서요
word, POS=tag1, POS+BPC=tag234
:
그래서 예를 들어 단어 분류 각 공칭 속성이 같은 출력을 할 수 있는가? 공칭 속성에 대해 가질 수있는 (클래스) 명목 값의 최대 수는 얼마입니까? 왜냐하면 더 많은 태그 세트와 더 많은 조합을 사용할 수 있기 때문입니다. LibSVM 패키지를 사용해야합니까? SVM을 사용하여이 다중 클래스 문제를 해결하는 것이 합리적일까요?내 훈련 데이터 세트는 약입니다. 288K 단어로, 테스트 데이터 세트는 약입니다. 35k 단어.
"class"라는 단어를 사용하는 것은 매우 혼란 스럽습니다. 명목상 * 값 *을 의미합니다. * 클래스 *는 예측하려는 것입니다. –