2012-09-21 3 views
0

apache Mahout 웹 사이트 https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html LDA 모델에 맞는 절차를보고 계산 된 항목을 P ("word"| "topic number") 형식으로 출력 할 수 있습니다. 그러나 훈련 된 모델을 테스트 데이터에 적용하여 주제 분포를 예측하는 방법에 대한 정보는 없습니다. 또는 조건부 확률 결과를 사용하여 테스트 데이터 세트를 통해 주제를 찾는 자체적 인 프로그램을 작성해야합니까?Mahout LDA 테스트 데이터 세트에서 주제를 예측하는 방법은 무엇입니까?

+0

LDA 주제 클러스터링의 [cluster-reuters.sh] (http://svn.apache.org/repos/asf/mahout/trunk/examples/bin/cluster-reuters.sh) 파일에 예제가 있습니다 . examples 디렉토리에서 찾을 수 있습니다. – Calavoow

+0

@Calavoow, 당신이 참조한 예제는 트레이닝 파트입니다. Rkz는 숙련 된 모델을 사용하여 새로운 문서 집합에 대한 주제 배포를 원합니다. – Wesam

답변

0

2009 Wallach 등의 간행물을 참조하십시오. al. '주제 모델 평가 방법'here. 4 장에서 P (z | w)를 계산하는 세 가지 방법, 즉 중요도 샘플링을 기반으로하는 방법과 'Chib 스타일 추정기'및 '왼쪽에서 오른쪽 방향으로 추정하는 도구'를 언급합니다.

말렛에는 왼쪽에서 오른쪽 방향으로 추정되는 방법이 구현되어 있습니다.

+0

감사합니다. 유익한 정보입니다. – Rkz

관련 문제