2012-09-06 2 views
1

Weka로 문장을 분류하고 싶습니다. 내 기능은 문장 용어 (단어)와 각 용어에 대한 음성 태그입니다. 각 용어가 하나의 기능으로 표시되면 각 인스턴스 (문장)의 기능 수가 달라져서 인물의 속성이 어떻게 달라지는 지 알 수 없습니다. 문장의 모든 단어가 하나의 기능으로 표시되면 단어와 해당 POS 태그의 관련성.Weka를 사용한 문장 구분

어떻게 진행해야합니까?

+0

입력 할 때 단어 및 POS 태그가있는 문장이 있지만 출력으로 원하는 것은 무엇입니까? 간단한 바이너리 분류 문장이 주어지면 출력은 '참'또는 '거짓'입니까? 또는 여러 개의 레이블 (예 : 문장을 분류 할 카테고리)이 있습니까? – Sicco

+0

그것은 간단한 2 진 분류 문제입니다. – saeid6366

답변

1

질문을 올바르게 이해하면 다음과 같이 답을 얻을 수 있습니다. 문장에서의 위치와는 독립적으로 단어를 처리하고 알려진 단어가 여러 번 나올 때마다 기능 공간에서 문장을 표시하는 것이 가장 일반적입니다 그 문장에서. 나는. 일반적으로 훈련 데이터에있는 각 단어에 대해 별도의 숫자 기능이 있습니다. 또는, n-gram을 기꺼이 사용한다면, 훈련 데이터의 모든 n-gram에 대해 별도의 기능을 사용할 수 있습니다 (주파수 임계 값이있을 수 있음).

POS 태그의 경우에는 관심있는 분류가 문장 구조 (구문)와 관련이있는 경우에만 POS 태그를 별도의 기능으로 사용하는 것이 좋습니다. 그렇지 않으면 단어에 POS 태그를 추가하기 만하면 다른 부분의 음성을 표현할 수있는 단어를 부분적으로 모호하게 만들 수 있습니다.

+0

답변 해 주셔서 감사합니다. 그것은 매우 도움이됩니다. – saeid6366