2014-12-08 1 views
1

마지막 부분 :훈련 된 LDA 모델에서 trainset의 분포를 gensim으로 저장하는 방법은 무엇입니까? 코드의

lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 64) 
corpus_lda = lda[corpus_tfidf] 

나는 더 사용 corpus_lda을 저장하는 방법 궁금?

+0

'lda' 모델을 저장 하시겠습니까? 나는 당신의 코드가'corpus_lda'가 훈련 문서마다 토픽 배포본을 포함하기 때문에 묻는다. –

+0

나는 corpus_lda가 내가 원하는 것을 저장하고 싶은데, 나는 2173 * 64 (2173은 나의 훈련 문서 번호와 64가 주제이다) 행렬로서 배포판을 저장하고 싶지만 어떻게 저장할지 모른다. 그것. –

+1

빠른 해결책은 [cPickle] (https://docs.python.org/2/library/pickle.html#module-cPickle) 모듈을 사용하고 주제 배포 매트릭스를 파일로 덤프 한 다음 사용하고자 할 때마다 매트릭스를로드하는 동일한 모듈. –

답변

2

는 Gensim 디스크에 말뭉치를 작성하기위한 기능이 있습니다

corpus_lda = corpora.MmCorpus('pathandfilename.mm') 

이 (자습서 또는 references 확인) 모델을 저장하는 유사한 기능이 있습니다

from Gensim import corpora 
corpora.MmCorpus.serialize('pathandfilename.mm', corpus_lda) 

가 저장된 코퍼스 사용을로드합니다. 다른 코퍼스 형식을 사용할 수 있습니다, 나는 매트릭스 시장 Gensim에 의해 사용되는 표준 형식으로 사용하지만 최근 indexedcorpus 형식이 일부 추가 기능 (인덱스, 당신이 추측 할 수있다)가 추가되었습니다 믿습니다.

+0

대단히 감사합니다! –

관련 문제