주제 모델링은 컬렉션의 클러스터를 효과적으로 식별하는 문서 컬렉션의 주제 분산을 식별합니다. 주제 모델링이 문서 클러스터링을 수행하는 기술이라고 말하는 것이 맞습니까?주제 모델링과 문서 클러스터링 간의 관계는 무엇입니까?
답변
주제가 문서의 클러스터와 매우 다르다. 결국 주제는 문서로 구성되지 않습니다.
그러나이 두 기술은 실제로 관련되어 있습니다. 토픽 모델링은 비슷한 문서가 어떻게 존재하는지 결정할 수있는 실용적인 방법이며, 따라서 문서 클러스터링을위한 실행 가능한 방법이라고 생각합니다.
각 문서를 주제 분포 (실제로는 벡터)로 표현할 때 주제 모델링 기법은 등장 인물 (코퍼스에서)의 수에서 주제의 수까지 피쳐 차원을 감소시킵니다. 문서 간의 유사성 주제 배포판은 코사인 메트릭 및 다른 주제를 사용하여 계산할 수 있습니다.이 메트릭은 다루는 주제/테마 측면에서 문서 자체의 유사성을 반영합니다. 이 정량화 된 유사성 측정을 기반으로 많은 클러스터링 알고리즘을 적용하여 문서를 그룹화 할 수 있습니다.
그리고이 점에서 주제 모델링은 문서 클러스터링을 수행하는 기술이라고 말하는 것이 옳다고 생각합니다.
클러스터링과 분류 간의 관계는 주제 모델링과 다중 레이블 분류 간의 관계와 매우 유사합니다.
단일 레이블 다중 클래스 분류에서 각 문서마다 하나의 레이블 만 지정합니다. 그리고 클러스터링에서 우리는 하나의 그룹에 각 문서를 넣습니다. 사실 레이블을 정의 할 때 미리 클러스터를 정의 할 수 없다는 것입니다. 이 사실을 무시하면 그룹화와 라벨링은 본질적으로 같은 것입니다.
그러나 현실 세계 문제로는 분류가 충분하지 않습니다. 종종 문서는 여러 범주/클래스와 관련됩니다. 따라서 우리는 다중 라벨 분류를 활용합니다. 이제 우리는 여러 모델/주제로 각 문서를 넣을 수 있으므로 주제 모델링을 다중 레이블 분류의 감독되지 않는 버전으로 볼 수 있습니다. 다시 한 번, 레이블로 사용할 주제를 미리 결정할 수 없다는 사실을 무시하고 있습니다.
- 1. 관계형 데이터 모델링과 문서 데이터 모델링 간의 관계
- 2. 문서 클러스터링 기본 사항
- 3. 애자일과 OOP 간의 관계는 무엇입니까?
- 4. 문서 클러스터링
- 5. 문서 클러스터링/분류의 기능은 무엇입니까?
- 6. GDAL, FDO 및 OGR 간의 관계는 무엇입니까?
- 7. COM과 Windows DLL 간의 관계는 무엇입니까?
- 8. AWS, Parse 및 MongoDB 간의 관계는 무엇입니까?
- 9. 다른 WebSocket 프로토콜 버전 간의 관계는 무엇입니까?
- 10. 엔티티 간의 선택적 OneToOne 관계는 무엇입니까?
- 11. 서버, 소켓 및 IO 간의 관계는 무엇입니까?
- 12. .NET 어셈블리와 CPU 아키텍처 간의 관계는 무엇입니까?
- 13. AppDelegate, RootViewController 및 UIApplication 간의 관계는 무엇입니까?
- 14. 번들 식별자와 프로비저닝 프로파일 간의 관계는 무엇입니까?
- 15. OSGi에서 패키지와 번들 버전 간의 관계는 무엇입니까
- 16. 문서 라이브러리 클러스터링 하우투?
- 17. Solr의 문서 클러스터링
- 18. Python에서 문서 클러스터링
- 19. Objective-C의 문서 클러스터링
- 20. res.partner와 res.user의 관계는 무엇입니까?
- 21. 두 XML 문서 간의 연결 유효성 확인
- 22. Hadoop과 NoSQL의 관계는 무엇입니까?
- 23. GEF와 GMF의 관계는 무엇입니까?
- 24. UML 모델링과 UML 디자인의 차이점
- 25. 합금과 UML의 관계는 무엇입니까?
- 26. Javascript : 속성 설명자와 기본 제공 속성 속성 간의 관계는 무엇입니까
- 27. 새 스크럼 tfs2010에서 SBT와 스프린트 간의 관계는 무엇입니까?
- 28. LIS, OBJ 및 EXE 파일 간의 관계는 무엇입니까?
- 29. 페이징 파일의 실제 페이지와 페이지 간의 관계는 무엇입니까?
- 30. project.clj와 종속 라이브러리 jar 파일 간의 관계는 무엇입니까? 내가 사용하고