2017-02-23 1 views

답변

6

tokenizer.tokenize() 같은

내가

import nltk 
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle') 
for i in content_french: 
     print(i) 
     print(tokenizer.tokenize(i)) 

하고 있어요하지만 얻을 비 토큰 화 된 출력은 문장 토크 나이 (스플리터)입니다. 당신이 단어를 토큰 화하려면 다음 word_tokenize()를 사용

import nltk 
from nltk.tokenize import word_tokenize 

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."] 
for i in content_french: 
     print(i) 
     print(word_tokenize(i, language='french')) 

Reference

관련 문제