2013-03-07 2 views
0

나는 아랍어 언어에 대한 감정 분석을하고 있는데 파이썬/nltk과 꿈의 파이 쉘을 사용하고 있습니다.이 문제는 토큰 화의 기능을 적용 할 때 발생합니다. 어떻게 표시합니까?파이썬/nltk에서 토큰 화 된 아랍어 텍스트를 인쇄하는 방법?

>>> import nltk 
>>> sentence = "مصادمات عنيفه في" 
>>> tokens = nltk.word_tokenize(sentence) 
>>> tokens 
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a'] 

답변

1

토큰을 인쇄하면 목록을 인쇄하고 \x...은 바이트 코드 표현입니다. 아랍어 양식을 인쇄하려면 목록을 반복하여 하나씩 토큰을 인쇄하십시오.

>>> import nltk 
>>> sentence = "مصادمات عنيفه في" 
>>> tokens = nltk.word_tokenize(sentence) 
>>> tokens 
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a'] 
>>> for i in tokens: 
...  print i 
... 
مصادمات 
عنيفه 
في