2016-11-16 4 views
1

주제 모델링을 처음 사용했습니다. 내 목표는 문서에서 주요 주제를 찾는 것입니다. 나는 목적을 위해 lda를 사용할 계획이다. 그러나 lda에서는 주제의 수가 미리 정의되어야합니다. 훈련 자료에없는 다른 도메인의 문서가 오면 올바른 결과를 얻지 못할 것이라고 생각합니다. 다른 해결책이 있습니까? 내 생각이 맞습니까?주제 모델의 동적 주제 수

+0

"문서"라고 말하면 하나의 문서만을 의미합니까? LDA를 사용한 주제 모델링은 많은 문서로 구성된 코퍼스가있을 때만 의미가 있습니다. 또한 주제 모델링의 "주제"는 다소 구체적인 의미를 가지며 "라벨 작업"과 동일하지 않습니다. – jknappen

답변

1

LDA (Latent Dirichlet Allocation) 및 HDP (Hierarchical Dirichlet Process) 주제 모델을 학습 할 수있는 두 가지 후보가 좋습니다.

LDA의 경우 주제 수 K는 고정되어 있으므로 미리 알고 있어야합니다. scikitgensim에 구현 된 온라인 Variational Bayes (VB) 알고리즘과 같은 빠른 추론 알고리즘은 매우 큰 데이터 세트 (예 : New York Times 또는 Wikipedia)에 대한 교육을 가능하게합니다. 대형 코카콜라에 대해 교육하고 K를 높게 설정함으로써 문제를 피할 수 있습니다 과잉 피팅 (over-fitting)과 샘플 문서에 대한 의미있는 토픽을 배웁니다. LDA의 경우 교차 유효성 검사는 일반적으로 다른 주제 수에 대한 혼란을 평가하고 혼란을 최소화하는 K를 선택하여 K를 설정하는 데 사용됩니다.

또는 HDP 토픽 모델 (gensim에서 구현 됨)은 데이터에서 자동으로 항목 수를 학습합니다. 농도 매개 변수와 절단 레벨을 설정하여 모델의 주제 수를 추측합니다. HDP에 대한 온라인 변형 추론과 같은 효율적인 추론 알고리즘을 사용하면 방대한 데이터 집합을 학습하고 의미있는 주제를 발견 할 수 있습니다.