2011-05-12 5 views
2

스탠포드 POS 태거를 사용하여 문장에 태그를 지정하려고합니다. 문서를 문장으로 나눈 다음 문장을 토큰으로 나누고 싶습니다. 처음으로 java를 사용하기 때문에 명령 줄에서 태그를 실행하고 싶습니다.스탠포드 POS 태그 작성기에서 토큰 화는 어떻게 이루어 집니까?

나는 tagger를 실행하면서 출력을 주지만 "untokenizable"이라는 경고를줍니다. 이 경고의 의미는 무엇입니까? 토큰 화가 태그 지정자에 의해 암시 적으로 수행되지 않았습니까?

텍스트를 지정한 문장으로 나누기위한 명령을 실행하려했지만 작동하지 않습니다. 태그 지정자는 경로를 열 수 없다는 오류를 표시합니다.

또한 텍스트 파일 수를 입력하고 해당 파일에서 해당 출력을 가져 와서 모든 출력이 뒤죽박죽이되지 않도록하는 방법을 알고 싶습니다.

+0

아마도 메일 링리스트에 물어 보는 것이 더 좋습니다. http://nlp.stanford.edu/software/tagger.shtml#Mail – ceving

+0

아니면 적어도 stanford-nlp 태그를 추가하십시오 :-) –

답변

4

예, Stanford POS 태그러에는 고품질의 결정적인 토크 나이저가 포함되어 있습니다. 이는 텍스트가 이미 토큰 화되었다고하지 않는 한 사용됩니다. 공식적인 영어 텍스트의 경우, 다른 문자 처리기보다 우수합니다 (문자, 짹짹 등).

의미없는 경고는 입력에 바이트/문자 시퀀스가 ​​있음을 의미합니다 프로세스가 없습니다.

일반적으로이 의미는 다음과 같습니다. 태그 작성기의 기본 문자 인코딩은 utf-8 (유니 코드)이지만 문서는 iso-8859-1 또는 Windows cp1252와 같은 8 비트 인코딩과 같은 다른 인코딩으로되어 있습니다. . -encoding 플래그로 문서를 변환하거나 입력 문서 인코딩을 지정할 수 있습니다.

그러나 입력에 희귀 한 문자가 있다는 것을 알 수도 있습니다. 이러한 경우 일반적으로 가끔씩 나타나는 문자 일 경우 메시지를 무시하면됩니다. 문자를 삭제할지 또는 1 문자 토큰으로 바꾸는 지 선택할 수 있습니다.

하나의 명령으로 여러 파일에 실행하는 기능이 현재 없습니다. 각 파일에서 별도로 실행하거나 자체 코드를 작성해야합니다.

관련 문제