파이썬에서 정규식을 사용하여 구두점/숫자를 제거하는 데 도움이되는 코드가 있었지만 중지 목록이 효과적 이도록 특별히 변경하지 않으면 안되었습니다. 어쨌든, 구두점은 제거되지 않고 있으며, 솔직히 나는 왜 그런지 잘 모르겠다. 아마 안되게 바보 같은, 그래서텍스트 문제에서 구두점/숫자 제거 문제
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
word = punctuation.sub("", word)
print word_list
이 좋은 것 작동하지 않는 이유에 모든 포인터는, 내가 파이썬 전문가는 아니지만. 감사.