2014-09-18 1 views
0

gensim 라이브러리를 사용하여 LDA를 문서 세트에 적용하고 있습니다. gensim을 사용하면 용어 가중치가 무엇이든간에 LDA를 적용 할 수 있습니다.원래 LDA의 gensim에 대한 용어 가중치

내 질문은 원래의 LDA에 사용해야하는 가중치는 무엇입니까? 내가 올바르게 이해했다면 가중치는 용어 빈도 여야하지만 확실하지 않습니다.

답변

1

"어휘집"으로 표현되는 코퍼스 여야합니다. 또는, 그렇습니다, 기간 조사의 명부.

올바른 형식은 first tutorial on the Gensim webpage에 정의 된 corpus의 형식입니다 (이것들이 실제로 유용합니다). 당신이 Radim의 튜토리얼에 정의 된 dictionary, 다음과 같은 문서를 경우

즉,

doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash'] 
doc2 = ['this', 'document', 'has', 'words'] 
docs = [doc1, doc2] 

은 (LDA 함께 사용) 당신의 신체는의 (예 : 목록 등) 반복 가능한 객체를해야한다 형태의 튜플 목록 : (dictKey, count), 여기서 dk은 용어의 사전 키를 나타내고 count는 문서에서 발생하는 횟수입니다. 이 doc2bow 기능을 의미

corpus = [dictionary.doc2bow(doc) for doc in docs] 

그건 "단어의 가방 문서"로 당신을 위해 수행됩니다.