2017-02-05 1 views
0
from nltk.tokenize import RegexpTokenizer 
text="That's some text, you know!" 
tokens=[] 
tokenizer = RegexpTokenizer(r'\w+') 
tokens+=tokenizer.tokenize(text.lower()) 

와 문자열에서 '제거하려면 현재 반환 방법 : text = ['that', 's', 'some', 'text', 'you', 'know']RegexpTokenizer

나는 그것을 반환해야 : 현재 반환 text = ['thats', 'some', 'text', 'you', 'know']이 개 솔루션이 있습니다

+0

왜 당신은 그냥 제거하지 않는'' 'replace (" '," ")'와 함께? – hansaplast

+0

[Python에서 문자열에서 구두점을 제거하는 가장 좋은 방법] 가능한 복제본 (http://stackoverflow.com/questions/265960/best-way-to-strip-punctuation-from-a-string-in-python) –

+0

@hansaplast 이것은 텍스트 처리입니다. 간단한 대체는 어포 스트로피가 아닌 다른'''을 대체 할 수 있습니다. 이것이 nltk를 사용하는 이유입니다. –

답변

3

(이하 "그게 전부"한 단어입니다). 어느 쪽이든 당신은 사전 처리와 텍스트 변수를 원하는 :

text = text.replace("'", "") 

을하거나 "그건"일치 할이 수정과 함께 하나의 단어로 :

tokenizer = RegexpTokenizer(r'[\w\']+') 
관련 문제