2012-01-20 2 views
5

품사 태그 지정의 정확성을 높이기 위해 컨텍스트 단어를 사용하는 데 일반적으로나 권장되는 기술이 있습니까?컨텍스트를 사용하여 품사 태그 지정 개선하기

내가이 링크를 골프를 재생 : 나는 문장이 있다면 예를 들어

.

"링크"라는 단어는 단수 (골프 코스) 또는 복수형 중 하나 일 수 있습니다. 나는 여러 문법 검사기에서이 문장을 시험해 보았고 문장을 모두 올바로 인식했다. 내가 링크를 클릭

:

문제는 그들이이 문장이 유효하다고 생각합니다.

올바른 품사 (part-of-speech)를 추론하기 위해 컨텍스트 (클릭 한 골프와 비교했을 때)를 사용하는 좋은 방법이 있습니까?

감사합니다.

답변

2

"링크"가 "골프 코스"또는 "참조"인지 여부를 확인하는 작업은 단어 감정 흐림 효과이라는 작업입니다. 여기 Word-sense disambiguation에 대한 위키 백과의 문서 부분의 음성 할 수있는 관계에 대해 말씀입니다 태그 : 실제 테스트에서

, 태그 및 감지 태그가 매우 밀접하게 각 잠재적으로 만드는 제약과 관련된 품사 다른 하나. 이러한 작업을 함께하거나 분리해야하는지에 대한 질문은 여전히 ​​만장일치로 해결되지는 않지만 최근 과학자들은 이러한 것들을 개별적으로 테스트하려고합니다 (예 : Senseval/SemEval 대회에서 품사가 명확성을 위해 입력 부분으로 제공됨). 단어 감각 불균형 문제를 품사 태그 지정 문제와 비교하는 것이 좋습니다. 둘 다 말로 명확하게하거나 태깅하거나, 감각이나 말의 일부를 사용합니다. 그러나 한 단어에 사용 된 알고리즘은 주로 단어의 일부가 주로 인접한 1-3 단어로 결정되므로 단어의 의미는 더 멀리있는 단어로 결정될 수 있기 때문에 다른 단어에 사용되는 알고리즘은 잘 작동하지 않습니다. . 품사 태깅 알고리즘의 성공률은 감독 학습을 통한 단어 감별에있어 75 % 미만의 정확도와 비교할 때 현재 최첨단 기술이 95 % 이상인 WSD보다 훨씬 높습니다 . 이 수치는 영어의 경우 일반적이며 다른 언어의 경우와 다를 수 있습니다.

내가 알려 WSD를 사용하여 작품을 인식하지 오전 POS 태그 (WSD는 표준 알려 POS 태그를 사용하지만.)이 나에게 좋은 생각처럼 들리 경우에도 정확성에 이익이 것 정확도가 이미 높기 때문에 작아야합니다. 그것은 Toutanova의 CRF tagger의 기능으로 구현 될 수 있습니다.