0
from nltk.tokenize import RegexpTokenizer
text="That's some text, you know!"
tokens=[]
tokenizer = RegexpTokenizer(r'\w+')
tokens+=tokenizer.tokenize(text.lower())
와 문자열에서 '제거하려면 현재 반환 방법 : text = ['that', 's', 'some', 'text', 'you', 'know']
RegexpTokenizer
나는 그것을 반환해야 : 현재 반환 text = ['thats', 'some', 'text', 'you', 'know']
이 개 솔루션이 있습니다
왜 당신은 그냥 제거하지 않는'' 'replace (" '," ")'와 함께? – hansaplast
[Python에서 문자열에서 구두점을 제거하는 가장 좋은 방법] 가능한 복제본 (http://stackoverflow.com/questions/265960/best-way-to-strip-punctuation-from-a-string-in-python) –
@hansaplast 이것은 텍스트 처리입니다. 간단한 대체는 어포 스트로피가 아닌 다른'''을 대체 할 수 있습니다. 이것이 nltk를 사용하는 이유입니다. –