0

약 150,000 개의 문서에 대한 구조화되지 않은 데이터가 있습니다. 나는 감독되지 않는 학습 알고리즘을 사용하여이 문서들을 그룹화하려고 노력 중이다. 현재 gensim Python에서 LDA (Latent Dirichlet allocation)를 사용하고 있습니다. LDAModel의 경우 num_topics = 20을 전달했습니다. 따라서 내 전체 150k 데이터는 20 개의 주제로 떨어지고 있습니다.LDA - 주제에 키워드 할당

  1. 어떻게 이러한 주제에 새 문서를 지정해야합니다 :

    지금 내가이 그룹을 가지고, 나는이 개 질문이?

내가 복용하고 접근 방식은 다음과 같습니다 주제에 따라 문서의 단어 점수의 합을 계산하고 가장 높은 점수와 함께 주제에 문서를 할당합니다. 그러나 이것은 나에게 좋은 결과를주지 못하고있다.

더 좋은 방법이 있나요?

  1. 주제를 나타내는 기본 키워드는 어떻게 할당합니까?
+0

위의 코드의 발췌했다. –

+0

나는 num_topics에 대한 매개 변수로 20을주었습니다. 미리 정의 된 질문을 수정했습니다. –

답변

0

이 주제에 새 문서를 어떻게 할당해야합니까?

doc_bow = model.id2word.doc2bow(doc.split()) # convert to bag of words format first 
doc_topics, word_topics, phi_values = model.get_document_topics(bow, per_word_topics=True) 

재 : 당신이 훈련 모델을 일단

당신은 당신의 문서에 대한 model을 조회 할 수 있습니다. 이 코드는 특정 주제에 속한 수준에 대한 문서 별 및 단어 별 정보를 제공합니다. 즉, 단어 단위 계산이 자동으로 수행됩니다.

어떻게 주제를 나타내는 주요 키워드를 할당합니까?

무슨 뜻인지 이해하기가 어렵습니다. 가중치와 함께 주제를 나타내는 키워드는 코퍼스를 사용한 교육에서 얻은 실제 LDA 모델입니다.


난 당신이 검토에 관심이있을 수 있습니다 가정 the following notebook [*] 문서에 관한 특정 정보에 대한 모델을 조회하는 방법에 대한 자세한 내용 (단어 당 주제 정보 등).

는 [*]있는 나는 당신의 주제는 미리 정의 된 경우,이 분류가 아닌 클러스터링 문제