2012-06-22 3 views
30

LDA를 읽었으며 문서 모음을 입력 할 때 주제 작성 방법에 대한 수학을 이해합니다.LDA 주제 모델링 - 교육 및 테스트

참고 문헌은 LDA가 문서 모음을 제공하고 더 이상 (감독이 필요하지 않음) 주어진 컬렉션에서 문서로 표현 된 "주제"를 밝힐 수있는 알고리즘이라고 말합니다. 따라서 LDA 알고리즘과 Gibbs Sampler (또는 Variational Bayes)를 사용하여 일련의 문서를 입력 할 수 있으며 출력으로 주제를 얻을 수 있습니다. 각 주제는 할당 된 확률을 갖는 용어 집합입니다.

위의 내용이 사실이라면 많은 주제 모델링 자습서에서 데이터 세트를 교육 및 테스트 세트로 분리하는 것에 대해 이야기하는 이유는 무엇입니까?

LDA를 사용하여 모델을 학습하는 데 사용할 수있는 단계 (기본 개념)를 설명하고 다른 테스트 데이터 집합을 분석하는 데 사용할 수 있습니까?

+1

좋은 질문입니다! – KillBill

답변

30

학습 및 테스트 세트로 데이터를 분할하는 것은 학습 알고리즘의 성능을 평가하는 일반적인 단계입니다. 감독 학습에서 모델을 교육 한 다음 테스트 세트에서의 분류가 실제 수업 레이블과 얼마나 잘 일치하는지 확인하는 것이 감독 학습의보다 명확합니다. 감독되지 않은 학습의 경우, 그러한 평가는 약간 까다 롭습니다. 주제 모델링의 경우, 성능의 공통 척도는 perplexity입니다. 트레이닝 세트에서 LDA와 같은 모델을 훈련시킨 다음 모델이 테스트 세트에 얼마나 "당혹스러워"있는지 봅니다. 보다 구체적으로, 테스트 문서의 단어 수를 주제로 표현 된 단어 분포로 표현하는 정도를 측정합니다.

Perplexity는 모델이나 매개 변수 설정 간의 상대 비교에 적합하지만 숫자 값은 실제로 의미가 없습니다.

  1. 이 주제 검사 : 각 항목의 가장 높은 가능성이 단어 봐 나는 다소 매뉴얼 다음, 평가 프로세스를 사용하여 주제 모델을 평가하는 것을 선호합니다. 응집력있는 "주제"또는 단어의 무작위 그룹을 형성하는 것처럼 들리는가요?
  2. 주제 할당 검사 : 교육에서 임의의 몇 가지 문서를 들고 LDA가 할당 한 주제를 확인하십시오. 수동으로 할당 된 주제의 문서 및 상위 단어를 검사합니다. 주제가 실제로 문서가 실제로 말하는 내용을 설명하는 것처럼 보입니까?

나는이 프로세스가 좋고 양적이지 않다는 것을 알고 있지만 솔직히 말해서 주제 모델의 적용은 거의 정량적이지 않습니다. 적용하려는 문제에 따라 주제 모델을 평가하는 것이 좋습니다.

행운을 빈다.

+0

좋은 설명을 해주신 Gregamis에게 감사드립니다. 귀하의 포인트 번호 2). 주제 지정을 문서화 할 때, 문서의 단어에 주제를 어떻게 할당합니까? 문서에서 단어를 순차적으로 살펴보고 주제에서 동일한 단어를 찾아 해당 단어를 그 단어에 할당합니까? 글쎄, 만약 당신이 그렇게한다면, 한 단어가 두 개 이상의 주제에서 높은 확률로 나타날 때 어떤 일이 일어날까요? 아주 단순한 예를 들어 '강둑'과 '은행 계좌'라고 말하십시오. – tan

+1

@tan : 주제가 단어가 아닌 문서에 지정되어야합니다. 또한 수동으로 아닙니다. –

+0

@ggamis :이 게시물을 가져 주셔서 감사합니다. 그렇다면 감독 된 LDA/다른 주제 모델링 기술을 사용하여 주제 모델 만 평가합니까? – user1930402

관련 문제