2012-04-02 2 views
3

뉴스 기사의 큰 코퍼스에서 주제 목록을 검색하려고합니다. gensim을 사용하여 LDA를 사용하여 각 문서에 대한 주제 분포를 추출 할 계획입니다. 나는 lda의 gensim 구현에 필요한 처리 된 기사의 형식과 원시 문서를 해당 형식으로 변환하는 방법을 알고 싶다. 위키 피 디아 덤프에서 lda를 사용하는 것에 대한이 링크를 보았지만 형식이 어디에도 언급되지 않은 처리 상태에있는 자료를 찾았습니다.뉴스 기사에서 lda에 gensim을 사용하는 방법은 무엇입니까?

답변

3

오프라인 학습 단계 및 온라인 기능 생성 단계가 있습니다. 오프라인 학습

은 위키피디아와 같은 큰 코퍼스이 있거나 뉴스 기사의 무리 다운로드 가정합니다. 각 기사/문서

:

  1. 당신은 원시 텍스트 당신은 그것을 lemmatize
  2. 를 얻을. Gensim 당신은 사전
  3. 당신은

그런 다음 당신은 TF-IDF의 모델을 학습하고, TF-IDF 공간 전체 코퍼스를 변환 단어 표현의 가방을 만들을 만들 utils.lemmatize에게

  • 있습니다. 마지막으로 "TF-IDF corpus"에서 LDA 모델을 학습합니다. 들어오는 뉴스 기사와

    온라인

    당신은 거의 같은 수행

    1. Lemmatize을가
    2. 사전을 사용하여 representaiton 단어의 가방을 만듭니다.
    3. TF-IDF 모델을 사용하여 TF-IDF 공간으로 변환
    4. LDA 공간으로 변환하십시오.
  • +0

    어떻게 lda 공간을 정상으로 다시 변환 할 수 있습니까, 이해할 수 없습니까? – briskly

    +0

    Do not는 문서 위에 토픽을 배포하고 TF-IDF 공간에 문서를 갖고 싶습니까? – Karsten

    4

    문제가 제대로 발생했는지 모르겠지만 gensim은 여러 개의 corpora를 지원합니다. 그들의 목록은 here입니다.

    자연어를 처리하려면 먼저 텍스트를 토큰 화해야합니다. gensim 웹 사이트 here에서 단계별 자습서를 따르십시오. 꽤 잘 설명되어 있습니다.

    관련 문제