주제 모델링을 처음 사용했습니다. 내 목표는 문서에서 주요 주제를 찾는 것입니다. 나는 목적을 위해 lda를 사용할 계획이다. 그러나 lda에서는 주제의 수가 미리 정의되어야합니다. 훈련 자료에없는 다른 도메인의 문서가 오면 올바른 결과를 얻지 못할 것이라고 생각합니다. 다른 해결책이 있습니까? 내 생각이 맞습니까?주제 모델의 동적 주제 수
1
A
답변
1
LDA (Latent Dirichlet Allocation) 및 HDP (Hierarchical Dirichlet Process) 주제 모델을 학습 할 수있는 두 가지 후보가 좋습니다.
LDA의 경우 주제 수 K는 고정되어 있으므로 미리 알고 있어야합니다. scikit 및 gensim에 구현 된 온라인 Variational Bayes (VB) 알고리즘과 같은 빠른 추론 알고리즘은 매우 큰 데이터 세트 (예 : New York Times 또는 Wikipedia)에 대한 교육을 가능하게합니다. 대형 코카콜라에 대해 교육하고 K를 높게 설정함으로써 문제를 피할 수 있습니다 과잉 피팅 (over-fitting)과 샘플 문서에 대한 의미있는 토픽을 배웁니다. LDA의 경우 교차 유효성 검사는 일반적으로 다른 주제 수에 대한 혼란을 평가하고 혼란을 최소화하는 K를 선택하여 K를 설정하는 데 사용됩니다.
또는 HDP 토픽 모델 (gensim에서 구현 됨)은 데이터에서 자동으로 항목 수를 학습합니다. 농도 매개 변수와 절단 레벨을 설정하여 모델의 주제 수를 추측합니다. HDP에 대한 온라인 변형 추론과 같은 효율적인 추론 알고리즘을 사용하면 방대한 데이터 집합을 학습하고 의미있는 주제를 발견 할 수 있습니다.
관련 문제
- 1. , 주제
- 2. 주제 모델링 : 건물의 주제 용어
- 3. 양식 핸들러 주제 동적 필드
- 4. RabbitMQ 주제 형식 - 주요 주제 아래 하위 주제
- 5. 주제 교환
- 6. Gensim의 주제 모델 평가
- 7. 프로젝트 주제?
- 8. 주제 정리
- 9. 카프카 제작자 별 주제
- 10. FIRMessaging - 주제 1 개 제한 또는 등록 된 주제 확인
- 11. 주제 분기 시작과 주제 분기 작성의 차이점은 무엇입니까?
- 12. 미러 메이커 대상 주제 이름이 소스 주제 이름과 다릅니다.
- 13. RabbitMQ - 주제 교환 - 두 명 이상의 소비자가 같은 주제
- 14. Android에서 Firebase로 주제 만들기
- 15. JMS 주제 시간 의존성
- 16. mqtt 구독 주제 만
- 17. HornetQ : 대기열에 주제 연결하기
- 18. POSIX 스레드 관련 주제
- 19. Azure 큐 대 주제
- 20. 원자가 주제 파일 다운로드
- 21. 카프카 브로커 주제
- 22. LDA 주제 지정
- 23. 모니터 ActiveMQ를 주제
- 24. 트렌드 컴퓨팅 주제
- 25. Mosquitto에서 주제 관리
- 26. 피 감시 (주제)
- 27. Boto3 SNS는 주제 ARN
- 28. 주제 본문에 topicmeta 사용
- 29. Kafka의 크기를보기 바이트의 주제
- 30. 봇을 사용하여 주제 만들기
"문서"라고 말하면 하나의 문서만을 의미합니까? LDA를 사용한 주제 모델링은 많은 문서로 구성된 코퍼스가있을 때만 의미가 있습니다. 또한 주제 모델링의 "주제"는 다소 구체적인 의미를 가지며 "라벨 작업"과 동일하지 않습니다. – jknappen