2012-05-11 4 views
0

NLP 문제점이 있으며 SVM과 함께 WEKA로 분류 할 계획입니다. 단어를 분류하려고합니다. POS 태그 세트에는 24 개의 태그가 있고 기본 구문 청크 (BPC) 태그 세트에는 15 개의 태그가 있습니다.WEKA의 SVM 교육을위한 공칭 속성의 공칭 값의 최대 수는 얼마입니까?

하지만 필자는 "기능 세트"를 가지고 있으며 각 단어를 각 기능마다 분류하려고합니다.

첫 번째 기능 세트는 {POS}이므로 공칭 속성 POS에 대해 24 개의 공칭 값이됩니다. 두 번째는 {POS + BPC}이므로 POS + BPC 명목 속성의 24 * 15 = 375 공칭 값이됩니다. 이것이 가능하다면 난 그냥 궁금 해서요

word, POS=tag1, POS+BPC=tag234 

:

그래서 예를 들어 단어 분류 각 공칭 속성이 같은 출력을 할 수 있는가? 공칭 속성에 대해 가질 수있는 (클래스) 명목 값의 최대 수는 얼마입니까? 왜냐하면 더 많은 태그 세트와 더 많은 조합을 사용할 수 있기 때문입니다. LibSVM 패키지를 사용해야합니까? SVM을 사용하여이 다중 클래스 문제를 해결하는 것이 합리적일까요?

내 훈련 데이터 세트는 약입니다. 288K 단어로, 테스트 데이터 세트는 약입니다. 35k 단어.

+0

"class"라는 단어를 사용하는 것은 매우 혼란 스럽습니다. 명목상 * 값 *을 의미합니다. * 클래스 *는 예측하려는 것입니다. –

답변

0

필자는 300 만 가지 기능을 가지고 있고 분류자를 만드는 데 weka를 사용하는 사람을 알고 있습니다. 그러나 weka에 제공된 메모리를 1GB에서 3GB로 늘려야했습니다. 설정과 비교하여 두 가지 기능이 있지만 3 자리 값 범위가 있습니다. 나는 기억 문제 이외에 전혀 문제가 없어야한다고 믿는다. Weka는 대규모 광산 작업대입니다. 왜 네가 정신 테스트로 몇 가지 샘플을 실행하고 우리에게 머리를 줘?

관련 문제