텍스트가 이미 토큰 화되고, 문장 분할 및 POS 태그가 있습니다.CoreNLP : pos 태그 제공
내가 추가 주석 보조 정리 (lemma
)에 CoreNLP를 사용하고 싶습니다라는 엔티티 (ner
), contituency 및 종속 구문 분석 (parse
), 및 coreferences (dcoref
).
명령 줄 옵션과 명령 줄에서 가능하게하는 옵션 파일 사양이 조합되어 있습니까? 그래서 남아있는 모든이며, 이것은 잘 작동
tokenize.whitespace = true
ssplit.eolonly = true
:
this question에 따르면, 나는 토큰을 구분으로 공백을 볼 수 파서를 요청할 수 있습니다, 나의 특성이를 추가하여 문장을 구분 등의 줄 바꿈이 파일 CoreNLP에 POS 태그도 제공하고 싶다고 지정하십시오.
스탠포드 파서를 단독으로 사용하는 경우 기존 POS 태그를 사용하려면 seems to be possible이지만 CoreNLP 호출에 해당 구문을 복사하는 것은 효과가없는 것처럼 보입니다. 예를 들어,이 작동하지 않습니다 this question이 프로그램 호출을 포함
java -cp *:./* -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -props my-properties-file -outputFormat xml -outputDirectory my-output-dir -sentences newline -tokenized -tagSeparator/-tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethod newCoreLabelTokenizerFactory -file my-annotated-text.txt
동안, 나는 CoreNLP가 더 큰 시스템의 일부로서 명령 줄을 형성 호출, 그래서 난 정말이 이것을 달성 할 수 있는지 부탁 해요 명령 행 옵션.