2016-07-18 3 views
0

공식적인 설명에서 LDA의 주제 사이에는 자연 순서가 없습니다.Gensim을 사용하여 상위 10 개 항목을 인쇄하는 방법은 무엇입니까?

show_topics() 메소드의 경우 num_topics가 반환 된 경우 < = 모든 항목의 self.num_topics 하위 집합은 임의적이며 두 번의 LDA 트레이닝 실행간에 변경 될 수 있습니다.

하지만 나는 상위 10 개의 자주하는 코퍼스 주제를 찾는 경향이 있습니다. 이것을 달성하는 다른 방법이 있습니까?

감사합니다.

답변

0

설명서와 마찬가지로 LDA의 항목간에 자연 순서가 없습니다. 출현 빈도와 같은 주제를 주문하기위한 자체 기준이있는 경우 모델에서 전체 주제 목록을 검색하고 직접 정렬 할 수 있습니다.

그러나 "상위 10 개의 가장 자주 나오는 주제"라는 개념조차도 모호하며 여러 가지 다양한 주파수 정의를 합리적으로 생각해 낼 수 있습니다. 가장 많은 수의 단어 토큰에 할당 된 주제를 의미합니까? 모든 문서 중에서 평균 비율이 가장 높은 항목을 의미합니까? 이러한 모호성으로 인해 gensim에는 주제를 정렬 할 수있는 기본 제공 방법이 없습니다.

관련 문제