2014-01-27 1 views
1

나는 분류를 위해 CV (Curriculum Vitae)를 연구 중이며 LDA를 사용했다. 설정 (N = 3)에 의한 CV (Marketing, Computer, Communication)의 3 가지 개념에 대한 나의 결과가 좋았습니다. 이제는 금융 개념 (또는 다른 개념)을 가진 새로운 CV에 대해 어떻게 새로운 주제를 (기존 주제에 추가하여) 만들 수 있습니까?자동으로 주제를 (LDA, HDP)로 만드시겠습니까?

사실 내 목표는 새로운 개념을 얻기 위해 매번 새로운 주제를 생성하는 것입니다.

나는 다른 개념으로 매일 다른 CV를 얻고 있으며 어떤 알고리즘 (HDP, On_Line LDA)이 자동으로 분류 작업을 수행하는 데 유용한 지에 대해 의문을 가지고 있습니다.

답변

0

LDA 또는 다른 주제 모델은 분류 방법이 아닙니다. 감독 학습의 맥락에서 차원 감소/전처리/동의어 발견 방법으로보아야합니다. 문서를 분류 자에게 단어 모음으로 표시하는 대신 항목을 통해 후방으로 표현합니다. 분류 작업에 3 가지 수업이 있으므로 LDA에 3 가지 주제를 선택한다고 가정하지 마십시오. 주제 모델 매개 변수는 문서를 가장 잘 모델링하도록 설정해야합니다 (예 : 복잡성 또는 주제 모델의 다른 품질 메트릭으로 측정, David Mimno의 다른 가능성을 확인하십시오). 주제 확률/사후 매개 변수의 벡터 생각은 유용하다.) 감독 된 학습 방법으로 먹여야한다.

이 실험은 원래의 LDA 논문에서 Blei 외가 수행 한 실험과 동일합니다.

+0

Topic (Environement R)의 수를 선택하여 LDA_Gibbas sampler를 테스트했으며 상관 된 Topic을 사용하는 새 문서 (물론 새 사전도 포함)에 대해 테스트했습니다. 각 새 문서의 의미는 항목 수를 고정해야합니다. 내 첫 번째 어려움)과 상관 관계가있는 주제 (나는 이전에 했었습니다)로 테스트했습니다. 어떻게 상관 된 주제를 기존 주제와 정수 할 수 있습니까? (두 번째 어려움이 있습니다). – Vampir

+0

내 문제를 해결하기 위해 필자는 관련 토픽과 함께 기존 토픽을 통합하기위한 융합 기능을 작성했다.이 기능은 기존 토픽과 상호 연관된 토픽을 비교하며, 둘 중 하나에도없는 토픽은 새로운 토픽으로 표시한다. 좋은)! – Vampir

관련 문제