나는 여러 장의 문서를 두 번째 문서와 비교하여 유사성을 판단해야하는 프로젝트가 있습니다. 문제는이 일을 어떻게 수행해야하는지, 어떤 접근법이 존재하는지 또는 이용 가능한 라이브러리가 있는지 전혀 모릅니다.대용량 문서의 텍스트 분석
내 첫 번째 질문은 ... 무엇이 비슷합니까? 일치하는 단어의 수, 일치하는 연속적인 단어의 수?
단어와 위치가있는 배열에 각 문서를 넣은 다음 파서를 비교하는 파서를 작성했습니다.
나는 그러나 내가 할 시도하고있는 것보다 다소 다른 것 같다 Algorithms or libraries for textual analysis, specifically: dominant words, phrases across text, and collection of text에서 이전 질문을 보았다.
사람들이 가질 수있는 옵션이나 포인터가 좋을 것입니다.
나는이 접근법이 문서의 유형 (수동, 박사 학위 논문, 소설?)에 크게 의존한다고 말하고 싶습니다. – Treb
"무엇이 비슷합니까"는 핵심 질문이며 누가 결과를 사용할 것이며 어떤 목적으로 사용될 것인가에 의해 좌우됩니다 . 당신은이 측면에 대해 자세히 설명해야합니다. – RBarryYoung
약간의 배경, 혼란에 대한 미안. 우리는 사람들이 제출 한 문서와 저작권이있는 문서의 목록을 비교하고자합니다.이 문서는 100 페이지가 될 수 있습니다. 그러나 제출 될 때 가비지 및 다른 유효한 시간에 제출됩니다. 우리는 중요한 일치가있는 곳을 식별 할 수 있기를 원합니다. –