2016-06-08 1 views
1

철저한 중지 단어 목록은 어디에서 찾을 수 있습니까? 내가 가지고있는 것은 아주 짧으며 과학적 텍스트에는 적용 할 수없는 것 같습니다. 과학 논문에서 핵심 주제를 추출하기 위해 어휘 체인을 만듭니다. 문제는 based, regarding 등과 같은 단어는 많은 의미를 전달하지 않으므로 중지 단어로 간주되어야한다는 것입니다.철저한 정지 단어 목록은 어디에서 찾을 수 있습니까?

답변

1

당신은 쉽게 기존의 중지 단어 목록에 추가 할 수 . 예 : 당신이없는 생각대로 추가 후

from nltk.corpus import stopwords 

과 :

stopwords = stopwords.words('english')+["based", "regarding"] 

원래 NLTK 목록 here을 설명하는 NLTK 툴킷에 하나를 사용하십시오.

1

주어진 단어가 주어진 도메인에서 정지 단어로 간주 될 수 있기 때문에 철저한 중지 단어 목록을 찾기는 어렵지만 다른 도메인에서는 중요한 단어입니다.

당신은 중지 단어의 일부 목록을 살펴 걸릴 수

:

http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

http://www.lextek.com/manuals/onix/stopwords1.html

http://www.ranks.nl/stopwords

http://xpo6.com/list-of-english-stop-words/

+0

이 경우 일부 도메인 관련 사전을 확인하는 것이 더 중요할까요? (저는 WordNet을 사용합니다) ... 나는 NLP의 초보자입니다. – Klue

관련 문제