답변

10

주제가 문서의 클러스터와 매우 다르다. 결국 주제는 문서로 구성되지 않습니다.

그러나이 두 기술은 실제로 관련되어 있습니다. 토픽 모델링은 비슷한 문서가 어떻게 존재하는지 결정할 수있는 실용적인 방법이며, 따라서 문서 클러스터링을위한 실행 가능한 방법이라고 생각합니다.

각 문서를 주제 분포 (실제로는 벡터)로 표현할 때 주제 모델링 기법은 등장 인물 (코퍼스에서)의 수에서 주제의 수까지 피쳐 차원을 감소시킵니다. 문서 간의 유사성 주제 배포판은 코사인 메트릭 및 다른 주제를 사용하여 계산할 수 있습니다.이 메트릭은 다루는 주제/테마 측면에서 문서 자체의 유사성을 반영합니다. 이 정량화 된 유사성 측정을 기반으로 많은 클러스터링 알고리즘을 적용하여 문서를 그룹화 할 수 있습니다.

그리고이 점에서 주제 모델링은 문서 클러스터링을 수행하는 기술이라고 말하는 것이 옳다고 생각합니다.

1

클러스터링과 분류 간의 관계는 주제 모델링과 다중 레이블 분류 간의 관계와 매우 유사합니다.

단일 레이블 다중 클래스 분류에서 각 문서마다 하나의 레이블 만 지정합니다. 그리고 클러스터링에서 우리는 하나의 그룹에 각 문서를 넣습니다. 사실 레이블을 정의 할 때 미리 클러스터를 정의 할 수 없다는 것입니다. 이 사실을 무시하면 그룹화와 라벨링은 본질적으로 같은 것입니다.

그러나 현실 세계 문제로는 분류가 충분하지 않습니다. 종종 문서는 여러 범주/클래스와 관련됩니다. 따라서 우리는 다중 라벨 분류를 활용합니다. 이제 우리는 여러 모델/주제로 각 문서를 넣을 수 있으므로 주제 모델링을 다중 레이블 분류의 감독되지 않는 버전으로 볼 수 있습니다. 다시 한 번, 레이블로 사용할 주제를 미리 결정할 수 없다는 사실을 무시하고 있습니다.

관련 문제