2012-07-27 2 views
0

종속성 트리 파서를 사용하여 응용 프로그램을 만들고 있습니다. 사실 파서는 다음과 같습니다. Parser Stanford하지만 구문 분석하려는 문장에서 일부 단어의 하나 또는 두 글자는 거의 변경되지 않습니다. 이러한 변화에 어떤 패턴도 보이지 않기 때문에 제 문장의 같은 단어로 의존성 트리가 필요하기 때문에 이것은 큰 문제입니다.스탠포드 NLP 종속성 트리 파서에 누락 된 단어

내가 볼 수있는 것은 단지 일부 단어에 이러한 문제가 있다는 것입니다. 트윗 데이터베이스를 사용하고 있습니다. 따라서이 데이터에는 많은 문법 실수가 있습니다. 예를 들어 '#AllAmericanhumour'해시 태그는 AllAmericanhumor가됩니다. 그것은 하나의 편지 (u)를 그리워합니다.

이 문제를 해결하기 위해 할 수있는 것이 있습니까? 내 첫 번째 관점에서 편집 거리 알고리즘을 사용하는 것이 좋겠다고 생각했지만, 그렇게하는 것이 더 쉬운 방법이라고 생각합니다. 사전

답변

1

에서

감사합니다 모두 당신은 -tokenize.options 플래그/속성 토크 나이에 옵션을 제공 할 수 있습니다. 이 특정 정상화를 들어, 당신은 당신이 PTBTokenizer 또는 http://nlp.stanford.edu/software/tokenizer.shtml을 (해제 볼 수있는 다양한 정상화도 있습니다

-tokenize.options americanize=false 

으로 해제 할 수 있습니다. 당신은 그러나

-tokenize.options ptb3Escaping=false 

으로 많이 해제 할 수 있습니다 구문 분석기는 ptb3Escaping=true의 출력처럼 보이는 데이터를 학습하므로 정규화되지 않은 토큰과 함께 사용하면 성능이 저하되는 경향이 있으므로 대체 전략을 고려할 수 있습니다 ..

작업중인 경우 g를 Java 레벨에서 사용하면 실제로지도 인 단어 토큰을 볼 수 있으며 다양한 키가 있습니다. OriginalTextAnnotation은 표준화 된 경우에도 비표준 토큰을 제공합니다. CharacterOffsetBeginAnnotation 및 CharacterOffsetEndAnnotation은 문자 오프셋으로 문자로 매핑됩니다.

p.s. 그리고 몇 가지 대답을 받아 들여야합니다 :-).