최근 프로젝트에서 텍스트 문서 간의 유사점을 측정하고 각각에 짧은 제목을 지정해야합니다. 그 (것)들을위한 어떤 오픈 소스 도서관 있는가? 또는 직접 작성해야하는 경우 주제에 대한 자습서가 있습니까? 내가 사용해야하는 도구는 무엇입니까?텍스트 클러스터링 및 자동 요약을위한 오픈 소스 도구
1
A
답변
2
텍스트 문서 간의 유사점을 측정 할 때 이전 버전의 문서 베타 유사성 기술 (check vector space model)부터 시작할 수 있습니다. 같은 의미의 잠재 의미 론적 색인을 사용할 수 있습니다. 문서 유사점에 Here is one paper
텍스트 요약은 인간에게 의미있는 것을 생산해야하는 것처럼 유사성 측정보다 어렵습니다. OpenNLP은 텍스트 처리와 관련된 모든 기본적인 라이브러리입니다. 텍스트 요약과 관련된 더 많은 논문은 here으로 시작하는 것이 좋습니다.
2
edit distance 함수 중 하나를 사용하여 유사성을 측정 할 수 있습니다. C# Leventshtein distance.과 같은 검색을 수행하면 채울 언어에 대한 구현이 가능합니다.
도큐먼트 간의 유사성은 인 인기있는 라이브러리 인 Information Retrieval의 문제 일 수 있습니다. Lucene은 vector space model을 사용하여 문서와 쿼리 간의 유사성을 확인하고 두 문서 간의 유사성을 측정하는데도 사용할 수 있습니다. Java 및 C#에는 구현이 있고 다른 언어에는 포트가 있습니다.
문제는 natural language processing 일 수도 있고 내가 사용한 라이브러리 중 하나는 NLTK과 LingPipe입니다. 이러한 라이브러리는 유사성을 훨씬 넘어서고 있으며 가파른 학습 곡선을 가지고 있으며 과도 할 수 있습니다. 그러나 이것들은 문서의 짧은 제목을 추출하는 데 도움이 될 수 있습니다.
관련 문제
- 1. .Net 오픈 소스 클러스터링 제품? ... 테라코타처럼 ...
- 2. 오픈 소스 차트 및보고 도구
- 3. 오픈 소스 데이터 이전 도구
- 4. 오픈 소스 구문 형광펜 도구?
- 5. 오픈 소스 테스트 보고서 생성 도구
- 6. 도구 오픈 소스 검색에 도움이
- 7. 오픈 소스 도구/서버 모니터링
- 8. 오픈 소스 - EER 모델링 도구
- 9. 오픈 소스 데이터 마이닝/파이썬 텍스트 분석 도구
- 10. 오픈 소스 js-kit/disqus와 같은 도구
- 11. 오픈 소스 텍스트 현지화 라이브러리
- 12. 오픈 소스 텍스트 - 음성 라이브러리
- 13. 오픈 소스 메타 데이터 관리 도구
- 14. 오픈 소스 웹 기반 Java보고 도구
- 15. C++ 코드를 생성하는 오픈 소스 UML 도구
- 16. asp.net 코드를 생성하기위한 오픈 소스 도구
- 17. C#의 오픈 소스 의견 도구?
- 18. Glassfish 성능 모니터링을위한 오픈 소스 도구
- 19. 오픈 소스 및 무료 Adhoc/최종 사용자보고 도구
- 20. Java 오픈 소스 텍스트 마이닝 프레임 워크
- 21. 오픈 소스 전체 텍스트 기사 추천 엔진
- 22. 오픈 소스 SOA 스택
- 23. 오픈 소스 JavaScript 오픈 소스 선택기는 무엇입니까?
- 24. 오픈 소스 ClearCase 대안
- 25. 오픈 소스 온라인 IDE
- 26. c 오픈 소스 포맷/필터링 생성 도구 Javadoc
- 27. 자동 도구 및 버전 관리
- 28. 오픈 소스 라이브러리
- 29. 오픈 소스 데이터베이스 프록시?
- 30. 오픈 소스 온라인 IDE