2016-06-11 2 views
0

방금 ​​Stanford NLP 코어로 작업을 시작했습니다.스탠포드 NLP : 구두점 오류 식별

제 문제는 제 자료의 많은 문장이 마침표 (마침표)로 끝나지 않는다는 것입니다.

솔직히 정규 표현식을 사용하여 문자열을 구문 분석하면 문제를 해결할 수 있지만 어느 정도 오류가있을 수 있습니다.

Stanford NLP가 누락 된 기간을 식별 할 수 있는지 궁금합니다.

답변

1

edu.stanfordn.nlp.process.DocumentPreprocessor은 문단을 문장으로 나누는 데 사용할 수 있지만 올바른 구두점이 없이는 얼마나 잘 작동하는지 잘 모르겠습니다.

귀하의 코퍼스를 사전 처리하는 데 사용할 수있는 많은 문장 수준의 토크 나이저가 있습니다. NLTK의 nltk.tokenize.punkt module은 대문자/구두점이없는 경우 문장 알고리즘을 사용하여 문장 토큰을 만듭니다.

관련 문제