LDA를 읽었으며 문서 모음을 입력 할 때 주제 작성 방법에 대한 수학을 이해합니다.LDA 주제 모델링 - 교육 및 테스트
참고 문헌은 LDA가 문서 모음을 제공하고 더 이상 (감독이 필요하지 않음) 주어진 컬렉션에서 문서로 표현 된 "주제"를 밝힐 수있는 알고리즘이라고 말합니다. 따라서 LDA 알고리즘과 Gibbs Sampler (또는 Variational Bayes)를 사용하여 일련의 문서를 입력 할 수 있으며 출력으로 주제를 얻을 수 있습니다. 각 주제는 할당 된 확률을 갖는 용어 집합입니다.
위의 내용이 사실이라면 많은 주제 모델링 자습서에서 데이터 세트를 교육 및 테스트 세트로 분리하는 것에 대해 이야기하는 이유는 무엇입니까?
LDA를 사용하여 모델을 학습하는 데 사용할 수있는 단계 (기본 개념)를 설명하고 다른 테스트 데이터 집합을 분석하는 데 사용할 수 있습니까?
좋은 질문입니다! – KillBill