1
모든 내용 단어를 빈도 차순으로 제공하는 스크립트를 작성해야합니다. 가장 자주 나오는 10 개의 단어가 필요합니다. 따라서 가장 자주 나오는 10 개의 단어 목록을 작성해야 할뿐만 아니라 모든 내용 단어 (및 또는 구두점 ...)를 필터링해야합니다. . 내가 지금까지 가지고하는 것은이 나에게 주파수의 순서를 분야별로 모든 단어의 아주 깔끔한 목록을 제공하는 다음Fdist 및 상위 10 개 함수 단어
fileids=corpus.fileids()
text=corpus.words(fileids)
wlist=[]
ftable=nltk.FreqDist (text)
wlist.append(ftable.keys())
이지만, 어떻게 밖으로 함수 단어를 필터링 할 수 있습니까?
감사합니다.
왜 NLTK에 스톱 어블리스트가 내장되어 있는지 몰랐습니다. – Shifu
예, NLTK는 환상적인 리소스이며 항상 새로운 보물을 발견하고 있습니다. –