정확합니다. 단어를 사용하는 것만으로도 좋은 모델을 개발할 수는 없습니다. 당신은 차원을 줄여야합니다. 당신이 제안했듯이,이를 수행하는 한 가지 방법은 표현의 일부를 취하는 것입니다. 물론 추출 할 수있는 다른 기능도 있습니다.
@relation period
@attribute minus_three {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute minus_three_length real
@attribute minus_three_case {'UC','LC','NA'}
@attribute minus_two {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute minus_two_length real
@attribute minus_two_case {'UC','LC','NA'}
@attribute minus_one {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute minus_one_length real
@attribute minus_one_case {'UC','LC','NA'}
@attribute plus_one {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute plus_one_length real
@attribute plus_one_case {'UC','LC','NA'}
@attribute plus_two {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute plus_two_length real
@attribute plus_two_case {'UC','LC','NA'}
@attribute plus_three {'CC', 'CD', 'DT', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNPS', 'NNS', 'NP', 'PDT', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP','WRB', 'NUM', 'PUNC', 'NEND', 'RAND'}
@attribute plus_three_length real
@attribute plus_three_case {'UC','LC','NA'}
@attribute left_before_reliable real
@attribute right_before_reliable real
@attribute spaces_follow_period real
@attribute class {'EOS','NEOS'}
@data
VBP, 2, LC,NP, 4, UC,NN, 1, UC,NP, 6, UC,NEND, 1, NA,NN, 7, LC,31,47,1,NEOS
NNS, 10, LC,RBR, 4, LC,VBN, 5, LC,?, 3, NA,NP, 6, UC,NP, 6, UC,93,0,0,EOS
VBD, 4, LC,RB, 2, LC,RP, 4, LC,CC, 3, UC,UH, 5, LC,VBP, 2, LC,19,17,2,EOS
EDIT (질문의 해제 기준) : 문장의 기간의 종료 여부를 표시할지 여부를 예를 들어, 내 .arff 파일 중 하나의 다음과 같은 매우 작은 부분을 결정하기 위해 사용되었다 그래서 을, 이것은 감독 된 학습 실험이었습니다. 훈련 데이터는 단락 스타일 형식의 일반 문장에서 온,하지만 다음과 같은 벡터 모델로 변형되었다 :
- 열 1 : 클래스 : 최종 문장의하거나하지-문장의 끝에
- 열 2-8 : 해당 기간을 둘러싼 +/- 3 단어
- 열 9,10 : 다음 신뢰할 수있는 문장 구분 기호 앞에 오는 단어의 왼쪽/오른쪽 단어 수 (예 :?,! 또는) 단락 표식).
- 열 11 : 마침표 뒤에 오는 공백 수.
물론 이것은 매우 복잡한 문제는 아니지만 Weka를 소개합니다. 우리는 단순히 단어를 지형지 물로 사용할 수 없으므로 POS 태그를 사용했습니다. 나는 또한 단어의 길이를 추출했다. 단어의 대문자 사용 여부와 상관없이
위의 벡터 모델로 변환하고 .arff에 사용 된 기능을 추출 할 수 있다면 테스트 데이터로 아무 것도 공급할 수 없습니다.
'NLP'가 의미하는 바를 분명히해야한다고 생각합니다. 나는 당신이 자연 언어 처리를 의미하는 것 같아요? –
@ NathanCraike : 예, 자연 언어 처리. "자연어 처리"라는 태그가없는 것 같습니다. 따라서 NLP를 사용해야했습니다. – kosa