-1
나는 약 1,400 개의 문서가 있습니다. tm 패키지를 사용하여 모든 텍스트를 정리했습니다. 마지막 단계는 DTM 매트릭스를 만드는 것입니다. 인간이 조사한 200 개의 문서와 할당 된 주제 (카테고리)를 기반으로 LDA 모델을 교육하려고합니다. 불행히도 재현 할 수있는 예제를 공유 할 수 없습니다.LDA 주제 지정
무료로 사용할 수있는 데이터 세트 중 하나를 예로들 수 있습니다.
내가 아는 한 LDA는 감독되지 않은 기계 학습 알고리즘입니다. 그래서, 모형은 산출물을 산출하기 위해 훈련 될 필요가 없습니다. 알고리즘은 주제 단어 할당을 생성하기 위해 코퍼스에 잠복 해있는 구조를 찾습니다. 여기에있는 것과 같은 LDA의 감독 버전이 있습니다 : https://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdf,하지만 그들은 주제 - 모델링 패키지 – DotPi
에 구현되어 있다고 생각하지 않습니다. 맞아. LDA 접근법을 취했을 때 최적의 주제 수는 2-3입니다. 그것은 k에 대한 팔꿈치 곡선에 의해서도 나타납니다. 인간의 검사를했을 때보 다 훨씬 적습니다. 내 대안은 무엇입니까? –