2017-01-26 1 views
1

지금까지 이모티콘을 사용하고 POS 태그를 사용할 때 알 수없는 기호, 작은 상자로 표시되었습니다. POS 태거가 그림 이모티콘으로 작동하도록 할 수있는 방법이 있습니까? 유니 코드 버전의 그림 이모티콘.스탠포드 CoreNLP 및 그림 이모티콘?

답변

2

코드, 시스템 및 Stanford CoreNLP 코드 전체에서 문자 인코딩이 올바른 경우, 그림이 올바르게 표시되어야합니다. 그러나 두 가지 더 근본적인 문제가 있습니다 :

첫 번째로, 이모티콘은 한 문자 길이가 길지 만 부정확 한 기사 이외의 것으로 태그 지정 될 것 같지 않습니다. 'a'는 영어로. 스마트 토크 나이저는 이모티콘에 대해 더 잘 이해할 수 있지만 의심 스럽습니다.

둘째, 더 중요한 것은 POS 태그 작성자가 parts of speech이라는 주석을 달았습니다. 그림 이모티콘은 표현의 일부가 아닙니다. 적어도 그들은 독립적이고 새로운 토큰 클래스이지만 문법적이지는 않습니다.

모두 ... 문자 코드를 알고 있습니다. 이미 태그가 붙어 있습니다.

+0

, 기회는 인코딩이 동일하지 않습니다 있습니다. 그냥 추측. – Qix

+1

그리고 원본과 출력 터미널 사이의 어디든지 범인이 될 수 있습니다. – gerowam

+0

매우 사실./length – Qix

2

버전 3.8.0부터 Stanford CoreNLP는 이모티콘을 지원합니다. 그들은 작은 상자를 게재하는 경우

Release notes.

+0

지원 emojis는 무엇을 의미합니까? 이 문제가 있습니다. https://stackoverflow.com/questions/46905716/stanford-chinese-segmentor-dont-handle-emojis-well – user697911

관련 문제