'ö', 'ü'등과 같은 문자를 포함하는 utf-8 인코딩을 사용하는 텍스트 파일이 있습니다.이 파일의 텍스트 형식을 구문 분석하고 싶지만 토큰 화 도구를 가져올 수 없습니다. 올바르게 작동.nltk를 사용하여 유니 코드를 토큰으로 만들기
는f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
출력 :
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
출력 : [u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
이 있습니다 [u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']
PUNKT 토크 나이가 더 잘 할 것 같다 나는 표준 NLTK 토크 나이를 사용하는 경우 아직도 '\ ufeff'내가 알아낼 수없는 첫 번째 토큰 (내가 그것을 제거 할 수 없다는 것) 전에. 내가 도대체 뭘 잘못하고있는 겁니까? 도움말 크게 감사드립니다.
감사합니다. 코드가 \ uFEFF를 제거하는 트릭을 수행합니다 – root
@ user1199589 여러분을 환영합니다. 다행히 도울 수있어. –
나도 도와 줬어. 많은 감사합니다! – Pitarou