2017-01-18 2 views
0

주제 모델링에 gensim을 사용하고 있습니다.gensim을 사용하여 제한된 어휘에서 코퍼스의 단어를 필터링하는 방법은 무엇입니까?

wordDict = corpora.Dictionary(trimmedTextTokens) 

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens] 

여기서 trimmedTextTokens는 중지 단어를 제거한 결과입니다. 이제 제한되거나 구성된 어휘 목록에없는 용어를 필터링하려고합니다. 어떤 아이디어? 고맙습니다!!

답변

0

당신의 제한된 어휘 목록을 가정하면라는 이름의 변수에 restrictedVocabularyList 당신은 할 수 :

wordDict = corpora.Dictionary(trimmedTextTokens) 

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList] 
+0

감사합니다! 감사합니다. – tom

+0

도움이되는 답변을 찾으면 받아 들일 수 있다면 감사하겠습니다. – ginge

관련 문제