2011-03-07 5 views
3

모두. 나는 pos tagger를 훈련시키는 Baum-Welch 알고리즘을 사용하고 있습니다. 그것은 완전히 감독되지 않은 방식입니다. 여기에 문제가 있습니다 : 레이블 결과를 얻었을 때 일련의 숫자 만 나타납니다. 어떤 라벨이 VV, NN, DT인지 알 수 없습니다. 이 문제를 어떻게 해결할 수 있습니까?바텀 - 웰치 알고리즘 (pos tagger)

+1

태그하는 언어는 무엇입니까? – dmcer

+1

당신은 각 낱말을위한 확율을 얻어야하고, 그 때 당신은 가장 높은 확율에 것을 선택할 것이다. – ealdent

+0

그러나 어떤 레이블이 어떤 pos 태그를 나타내는 지 모른다. 나는 얻는다. 1 2 3 5 2 3 – David

답변

4

일반적으로 그렇게 할 방법이 없습니다. Baum-Welch는 유사한 배포판을 사용하는 단어 사용을 발견 할 것입니다. 그러나 특정 언어 이론이 제시하는 범주에 해당 클래스가 직접적으로 매핑된다고 가정 할 특별한 이유는 없습니다. 따라서 감독되지 않은 POS 태그 리더는 단어 또는 구문의 동급 클래스는 신경 쓰지 만 할당되는 특정 태그는 신경 쓰지 않는 응용 프로그램에 주로 유용합니다.

인간이 읽을 수있는 레이블이 정말로 필요한 경우 (예 : 개발 중에 얻는 결과가 원격으로 그럴듯한 지 여부를 평가하기 위해) 수십 개의 문장을 손으로 태그 지정합니다. 그런 다음 클래스 번호와 POS 레이블 간의 매핑을 유도하기 위해 mini-corpus라고 표시된 라벨에 B-W 파생 태그를 적용 할 수 있습니다.

+0

나의 견해로는 감독되지 않은 방법이 유용한 pos tagger를 만드는 좋은 선택이 아닌 것 같다. 설명해 주셔서 감사합니다!! – David