2011-03-01 1 views
1

최근 프로젝트에서 텍스트 문서 간의 유사점을 측정하고 각각에 짧은 제목을 지정해야합니다. 그 (것)들을위한 어떤 오픈 소스 도서관 있는가? 또는 직접 작성해야하는 경우 주제에 대한 자습서가 있습니까? 내가 사용해야하는 도구는 무엇입니까?텍스트 클러스터링 및 자동 요약을위한 오픈 소스 도구

답변

2

텍스트 문서 간의 유사점을 측정 할 때 이전 버전의 문서 베타 유사성 기술 (check vector space model)부터 시작할 수 있습니다. 같은 의미의 잠재 의미 론적 색인을 사용할 수 있습니다. 문서 유사점에 Here is one paper

텍스트 요약은 인간에게 의미있는 것을 생산해야하는 것처럼 유사성 측정보다 어렵습니다. OpenNLP은 텍스트 처리와 관련된 모든 기본적인 라이브러리입니다. 텍스트 요약과 관련된 더 많은 논문은 here으로 시작하는 것이 좋습니다.

2

edit distance 함수 중 하나를 사용하여 유사성을 측정 할 수 있습니다. C# Leventshtein distance.과 같은 검색을 수행하면 채울 언어에 대한 구현이 가능합니다.

도큐먼트 간의 유사성은 인 인기있는 라이브러리 인 Information Retrieval의 문제 일 수 있습니다. Lucene은 vector space model을 사용하여 문서와 쿼리 간의 유사성을 확인하고 두 문서 간의 유사성을 측정하는데도 사용할 수 있습니다. Java 및 C#에는 구현이 있고 다른 언어에는 포트가 있습니다.

문제는 natural language processing 일 수도 있고 내가 사용한 라이브러리 중 하나는 NLTKLingPipe입니다. 이러한 라이브러리는 유사성을 훨씬 넘어서고 있으며 가파른 학습 곡선을 가지고 있으며 과도 할 수 있습니다. 그러나 이것들은 문서의 짧은 제목을 추출하는 데 도움이 될 수 있습니다.