종속성 트리 파서를 사용하여 응용 프로그램을 만들고 있습니다. 사실 파서는 다음과 같습니다. Parser Stanford하지만 구문 분석하려는 문장에서 일부 단어의 하나 또는 두 글자는 거의 변경되지 않습니다. 이러한 변화에 어떤 패턴도 보이지 않기 때문에 제 문장의 같은 단어로 의존성 트리가 필요하기 때문에 이것은 큰 문제입니다.스탠포드 NLP 종속성 트리 파서에 누락 된 단어
내가 볼 수있는 것은 단지 일부 단어에 이러한 문제가 있다는 것입니다. 트윗 데이터베이스를 사용하고 있습니다. 따라서이 데이터에는 많은 문법 실수가 있습니다. 예를 들어 '#AllAmericanhumour'해시 태그는 AllAmericanhumor가됩니다. 그것은 하나의 편지 (u)를 그리워합니다.
이 문제를 해결하기 위해 할 수있는 것이 있습니까? 내 첫 번째 관점에서 편집 거리 알고리즘을 사용하는 것이 좋겠다고 생각했지만, 그렇게하는 것이 더 쉬운 방법이라고 생각합니다. 사전