사람들이 꺽쇠 괄호를 단순히 구두점으로 사용하는 데이터 세트를 구문 분석 중이며 실제 마크 업이 절대로 발생하지 않습니다.Java, StanfordNLP Parser : 꺾쇠 괄호 토큰 화를 마크 업/토큰 화 꺾쇠 괄호로 사용하는 것을 어떻게 중지합니까?
, 우리는 그것은 매우 간단한 문제처럼 보인다
"<", "snickers", etc?
, 그러나 나는 천국을 얻을 수있는 등 파서의 기능을 변경하는 대신
"<snickers in background>"
하나의 토큰을 호출하는 방법이 있나요 문서 나 코드를 통해 간단한 수정을 찾을 수 없었습니다.
미리 감사드립니다.
추신 : 내가 알고 있어야하는 이런 식으로 행동하는 다른 문자가 있습니까?
안녕하세요, 고맙습니다. 결국 <>을 {} 등으로 대체 할 수 있습니다. 후 처리 (penn'd/americanized/etc) 텍스트를 문자열로 가져 오는 방법이 있는지 알고 있습니까? 토큰 화 된 출력의 일부로 오프셋을 가졌지 만 적용 할 단일 문자열은 없습니다. 나는 단지 문자열을 재 구축 할 수 있습니다. 아마도 오프셋을 기반으로하고 공간 주석을 가정 할 수 있습니다. 그러나 파서 자체에서 데이터를 얻는 방법이 있다면 멋질 것입니다. – aped
Woop nevermind, 알았어요. 이 도구는 정말 훌륭합니다. 감사합니다. – aped