0
gensim 라이브러리를 사용하여 LDA를 문서 세트에 적용하고 있습니다. gensim을 사용하면 용어 가중치가 무엇이든간에 LDA를 적용 할 수 있습니다.원래 LDA의 gensim에 대한 용어 가중치
내 질문은 원래의 LDA에 사용해야하는 가중치는 무엇입니까? 내가 올바르게 이해했다면 가중치는 용어 빈도 여야하지만 확실하지 않습니다.
gensim 라이브러리를 사용하여 LDA를 문서 세트에 적용하고 있습니다. gensim을 사용하면 용어 가중치가 무엇이든간에 LDA를 적용 할 수 있습니다.원래 LDA의 gensim에 대한 용어 가중치
내 질문은 원래의 LDA에 사용해야하는 가중치는 무엇입니까? 내가 올바르게 이해했다면 가중치는 용어 빈도 여야하지만 확실하지 않습니다.
"어휘집"으로 표현되는 코퍼스 여야합니다. 또는, 그렇습니다, 기간 조사의 명부.
올바른 형식은 first tutorial on the Gensim webpage에 정의 된 corpus
의 형식입니다 (이것들이 실제로 유용합니다). 당신이 Radim의 튜토리얼에 정의 된 dictionary
, 다음과 같은 문서를 경우
즉,
doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]
은 (LDA 함께 사용) 당신의 신체는의 (예 : 목록 등) 반복 가능한 객체를해야한다 형태의 튜플 목록 :
(dictKey, count)
, 여기서
dk
은 용어의 사전 키를 나타내고 count는 문서에서 발생하는 횟수입니다. 이
doc2bow
기능을 의미
corpus = [dictionary.doc2bow(doc) for doc in docs]
그건 "단어의 가방 문서"로 당신을 위해 수행됩니다.