2014-07-23 2 views
2

나는 총 438 개의 문장을 포함하는 하나의 문서를 가지고있다. 그러나 필자는 주제 모델링 시스템을 사용하여 어떤 문장이 더 관련이 있는지를 알 수 있는지 궁금합니다. 가능한가?작은 텍스트에서 주제 모델을 사용할 수 있습니까?

주제 모델링에 대한 모든 논문과 주제에서 보았 듯이이 시스템은 대개 매우 큰 코퍼스를 기반으로 작동합니다. 작은 데이터 세트에서 시스템이 얼마나 정확할 지 알고 싶습니다.

내 주된 목적은 텍스트에 대한 주제 모델링을 수행하는 것이 아니라 다른 주제를 수행하기 위해 두 문장을 동일한 주제에 속하는지 여부와 같은 기능으로 사용하고자합니다.

주제가 어떻게 결정되는지 알고 싶습니다. 각 주제 모델링 도구에 사전 정의 된 주제 세트가 있습니까? 아니면 사용자 정의 주제입니까?

최고 감사 번호

답변

3

예, 가능합니다. Latent Dirichlet Allocation (LDA)과 같은 표준 주제 모델링 기법으로 모든 문장을 하나의 문서로 취급하십시오.

주제가 선험적으로 결정되지 않았습니다. LDA에서 주제는 본질적으로 용어에 대한 분포입니다. 주제 수를 미리 지정하기 만하면됩니다. 자주 발생하는 단어는 동일한 주제에 속하는 경향이 있습니다.

두 번째 질문에 대답하려면 다음과 같이하십시오. "내 목표는 텍스트에 대한 주제 모델링을 수행하는 것이 아니라 두 개의 문장이 동일한 주제에 속하는지 여부와 같은 기능으로 사용하고자합니다. 다른 작업을 수행하십시오. "...

N (= : # docs, K : = # topics)의 theta 행렬 (NxK)을 계산하면이 N 개의 분포에 대한 KL- 발산 등과 같은 메트릭을 계산할 수 있습니다 각 문서에 대해 하나씩) 어떤 문서가 서로 관련되어 있는지 파악할 수 있습니다.

+0

와우! 정말? 그들을 사용할 수 있습니까? 아주 좋은 소식 이었어 :) 고마워. – user1419243

관련 문제