2011-08-20 2 views
0

사람들이 꺽쇠 괄호를 단순히 구두점으로 사용하는 데이터 세트를 구문 분석 중이며 실제 마크 업이 절대로 발생하지 않습니다.Java, StanfordNLP Parser : 꺾쇠 괄호 토큰 화를 마크 업/토큰 화 꺾쇠 괄호로 사용하는 것을 어떻게 중지합니까?

, 우리는 그것은 매우 간단한 문제처럼 보인다

"<", "snickers", etc? 

, 그러나 나는 천국을 얻을 수있는 등 파서의 기능을 변경하는 대신

"<snickers in background>" 

하나의 토큰을 호출하는 방법이 있나요 문서 나 코드를 통해 간단한 수정을 찾을 수 없었습니다.

미리 감사드립니다.

추신 : 내가 알고 있어야하는 이런 식으로 행동하는 다른 문자가 있습니까?

답변

0

아니요이 작업을 수행하는 간단한 방법은 없습니다. tokenizer에서 따옴표, 대시 및 대괄호 이스케이프의 처리를 사용자 정의하기위한 몇 가지 옵션이 있지만 전체적으로 tokenizer에는 많은 경험적 규칙이 있으며 대부분은 명령 행에서 변경할 수 없습니다.

당신은 두 가지 옵션이 있습니다 : 토큰 화 및 TokenizerFactory 당신 자신의 구현을 작성

  • 을, 다음 명령 줄 플래그와 요구, 대신 기본 PTBTokenizer의 사용하기를 요청 -tokenizerFactory
  • 분석에 앞서 입력 토큰 화
  • 하고 펜 Treebank 규칙에 의해 예상 정규 토큰이 토큰 화되지 않는 정도까지 플래그 물론 -tokenized

에게, PA를 수득 rsing 정확도가 저하되는 경향이 있습니다.

+0

안녕하세요, 고맙습니다. 결국 <>을 {} 등으로 대체 할 수 있습니다. 후 처리 (penn'd/americanized/etc) 텍스트를 문자열로 가져 오는 방법이 있는지 알고 있습니까? 토큰 화 된 출력의 일부로 오프셋을 가졌지 만 적용 할 단일 문자열은 없습니다. 나는 단지 문자열을 재 구축 할 수 있습니다. 아마도 오프셋을 기반으로하고 공간 주석을 가정 할 수 있습니다. 그러나 파서 자체에서 데이터를 얻는 방법이 있다면 멋질 것입니다. – aped

+0

Woop nevermind, 알았어요. 이 도구는 정말 훌륭합니다. 감사합니다. – aped

관련 문제