2016-10-12 3 views
-1

나는 약 1,400 개의 문서가 있습니다. tm 패키지를 사용하여 모든 텍스트를 정리했습니다. 마지막 단계는 DTM 매트릭스를 만드는 것입니다. 인간이 조사한 200 개의 문서와 할당 된 주제 (카테고리)를 기반으로 LDA 모델을 교육하려고합니다. 불행히도 재현 할 수있는 예제를 공유 할 수 없습니다.LDA 주제 지정

무료로 사용할 수있는 데이터 세트 중 하나를 예로들 수 있습니다.

+0

내가 아는 한 LDA는 감독되지 않은 기계 학습 알고리즘입니다. 그래서, 모형은 산출물을 산출하기 위해 훈련 될 필요가 없습니다. 알고리즘은 주제 단어 할당을 생성하기 위해 코퍼스에 잠복 해있는 구조를 찾습니다. 여기에있는 것과 같은 LDA의 감독 버전이 있습니다 : https://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdf,하지만 그들은 주제 - 모델링 패키지 – DotPi

+0

에 구현되어 있다고 생각하지 않습니다. 맞아. LDA 접근법을 취했을 때 최적의 주제 수는 2-3입니다. 그것은 k에 대한 팔꿈치 곡선에 의해서도 나타납니다. 인간의 검사를했을 때보 다 훨씬 적습니다. 내 대안은 무엇입니까? –

답변

0

교육 데이터에 주석을 추가 한 경우 SVM 또는 로지스틱 회귀와 같은 감독 분류 기법을 사용하면 텍스트 분류 작업에 매우 적합합니다. 파이썬에서 Scikit-learn은 이러한 분류자를위한 모든 구현을 가지며 분류 목적으로 직접 사용할 수 있습니다.