뉴스 기사의 큰 코퍼스에서 주제 목록을 검색하려고합니다. gensim을 사용하여 LDA를 사용하여 각 문서에 대한 주제 분포를 추출 할 계획입니다. 나는 lda의 gensim 구현에 필요한 처리 된 기사의 형식과 원시 문서를 해당 형식으로 변환하는 방법을 알고 싶다. 위키 피 디아 덤프에서 lda를 사용하는 것에 대한이 링크를 보았지만 형식이 어디에도 언급되지 않은 처리 상태에있는 자료를 찾았습니다.뉴스 기사에서 lda에 gensim을 사용하는 방법은 무엇입니까?
3
A
답변
3
오프라인 학습 단계 및 온라인 기능 생성 단계가 있습니다. 오프라인 학습
은 위키피디아와 같은 큰 코퍼스이 있거나 뉴스 기사의 무리 다운로드 가정합니다. 각 기사/문서
:- 당신은 원시 텍스트 당신은 그것을 lemmatize
- 를 얻을. Gensim 당신은 사전
- 당신은
그런 다음 당신은 TF-IDF의 모델을 학습하고, TF-IDF 공간 전체 코퍼스를 변환 단어 표현의 가방을 만들을 만들 utils.lemmatize에게
온라인
당신은 거의 같은 수행
- Lemmatize을가
- 사전을 사용하여 representaiton 단어의 가방을 만듭니다.
- TF-IDF 모델을 사용하여 TF-IDF 공간으로 변환
- LDA 공간으로 변환하십시오.
4
관련 문제
- 1. 블로그 기사에서 콘텐츠를 올바르게 추출하는 방법은 무엇입니까?
- 2. 콘솔 응용 프로그램에서 Google 뉴스 검색을 사용하는 방법은 무엇입니까?
- 3. 뉴스/평정/덧글 데이터베이스를 구성하는 방법은 무엇입니까?
- 4. 다른 IP에서 뉴스 레터를 보내는 방법은 무엇입니까?
- 5. (우수 사례) 뉴스 레터를 보내는 방법은 무엇입니까?
- 6. 뉴스 레터에 이미지를 보내는 방법은 무엇입니까?
- 7. TFL 뉴스 피드를 처리하는 방법은 무엇입니까?
- 8. RSS 기반 뉴스 롤 달성 방법은 무엇입니까?
- 9. 다양한 뉴스 소스를 데이터 마이닝하는 방법은 무엇입니까?
- 10. 다른 사이트에 뉴스 피드를 제공하는 방법은 무엇입니까?
- 11. 다음 뉴스 레터는 무엇입니까?
- 12. Joomla에서 내 모듈의 기사에서 고급 매개 변수 가져 오기
- 13. 기사에서 HTML 링크를 만드는 AS3
- 14. 기사에서 바디 색상 변경하기 Joomla
- 15. 여러 기사에서 버튼이 작동하지 않습니다.
- 16. 뉴스 시스템을위한 데이터베이스 스키마
- 17. 뉴스 피드를 구현하는 가장 좋은 방법은 스카이 뉴스 앱과 비슷합니다.
- 18. 리피터 및 Jquery를 사용하는 뉴스 티커
- 19. wordpress를 사용하지 않고 뉴스 시스템을 구현하는 가장 좋은 방법은 무엇입니까?
- 20. 보일러 파이프를 사용하여 웹 페이지에서 뉴스 콘텐츠를 추출하는 방법은 무엇입니까?
- 21. 페이스 북에서 최근 뉴스 피드 항목을 즉시 초기화하는 방법은 무엇입니까?
- 22. 뉴스 피드 일반 뉴스 용 API
- 23. 현재 위키피디아 기사에서 관련 주제를 얻는 방법?
- 24. Ther은 Java의 영어 텍스트 또는 기사에서 키워드를 추출하는 도구입니까?
- 25. 뉴스 스탠드 승인 프로세스는 무엇입니까?
- 26. 뉴스 사이트 순위
- 27. 뉴스 레터 서비스에 대한 신고 스팸 신고를받는 방법은 무엇입니까?
- 28. bing-api 뉴스 항목에서 뉴스 이미지 미리보기 이미지를 가져 오는 방법은 무엇입니까?
- 29. Facebook API를 사용하여 과거 뉴스 피드를받는 방법은 무엇입니까? 뉴스 피드를 가져올
- 30. 필터 목록없이 Locale :: acceptFromHttp를 사용하는 방법은 무엇입니까?
어떻게 lda 공간을 정상으로 다시 변환 할 수 있습니까, 이해할 수 없습니까? – briskly
Do not는 문서 위에 토픽을 배포하고 TF-IDF 공간에 문서를 갖고 싶습니까? – Karsten