2013-07-02 3 views
7

저는 LDA의 신입생이며 제 일에 그것을 사용하고 싶습니다. 그러나 일부 문제가 나타납니다.LDA에 대한 주제 수를 결정하는 방법은 무엇입니까?

최상의 성능을 얻으려면 최고의 주제 번호를 계산하고 싶습니다. "과학적 주제 찾기"를 읽은 후에는 logP (w | z)를 먼저 계산 한 다음 P (w | z)의 일련의 고조파 평균을 사용하여 P (w | T)를 추정 할 수 있음을 알고 있습니다.

제 질문은 "일련의"의미는 무엇입니까?

영어로 감사드립니다. 귀하의 참석에 감사드립니다.

답변

6

불행히도 하드 과학 귀하의 질문에 대한 올바른 답을 얻지 못했습니다. 내가 아는 한, hierarchical dirichlet process (HDP)은 아마도 최적의 주제 수에 도달하는 가장 좋은 방법 일 것입니다.

더 깊은 분석을 원하는 경우 this paper on HDP은 그룹 수를 결정할 때 HDP의 장점을보고합니다.

2

먼저 어떤 사람들은 최적의 주제 수를 찾기 위해 고조파 평균을 사용하고 있지만 시도했지만 결과가 만족스럽지 않습니다. 제 제안에 따라 R을 사용하는 경우 "ldatuning"패키지가 유용합니다. 최적의 매개 변수 수를 계산하기위한 메트릭 다시 말하자면, 복잡성과 로그 가능성 (log-likelihood)을 기반으로하는 V-fold 교차 유효성 검사는 최고의 주제 모델링을위한 매우 좋은 옵션입니다. V-fold 교차 유효성 검사는 대형 데이터 세트에 약간의 시간이 소요됩니다. "적절한 주제 수를 결정하기위한 발견 적 접근법 주제 모델링에서 ". 중요 링크 : https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/

관련 문제