2016-07-12 2 views
3

문자열을 토큰으로 변환하기 위해 OpenNLP java를 사용하고 있습니다. 그러나, 나는 둥근 괄호가 제대로 식별 할 수없는 것으로 나타났습니다.OpenNLP Tokenizer의 둥근 브래킷

코드 내가 사용 : 예를 들어 `

InputStream is = new FileInputStream("en-token.bin"); 
TokenizerModel model = new TokenizerModel(is); 
Tokenizer tokenizer = new TokenizerME(model); 
String tokens[] = tokenizer.tokenize("the string");` 

는, 문자열은 "나 같은 사람들이 뉴스를 해제 (있다)"입니다. 출력은 다음과 같습니다. people like me (are ) turning off the news

"are"의 왼쪽 둥근 괄호는 식별되지 않았습니다. 또한 예를 들어, "401 (k)"는 "401 (k"및 ")"로 변환됩니다.

또한 "SimpleTokenizer"클래스를 사용해 보았습니다. 대괄호를 분리 할 수 ​​있지만 "앞 페이지"를 "앞"과 "페이지"로 분리하여 원하는 것은 아닙니다.

해결책이 있는지 궁금합니다.

감사합니다. 비표준 문장 끝 (괄호)

이 여기에 필요 전처리의 어떤 의미

+0

대괄호뿐만 아니라 대괄호도 인식되지 않습니다. 따라서 우리는 소스 코드를 조사해야 할 것입니다. – Nuwanda

답변