업데이트 : 지금 PHP 확장은 기본적으로 PHP에서 퍼지 해시 및 해시 비교를 용이하게하기 위해 ssdeep의 C API에 대한 php_ssdeep라고 작성했습니다. 자세한 내용은 over at my blog입니다. 나는 이것이 사람들에게 도움이되기를 바랍니다.문서 관리 응용 프로그램에서 문서의 중복 및 유사 문서를 확인
다양한 파일 형식 (1000 개 파일)을 저장할 Linux 상자에서 PHP로 사용자 지정 문서 관리 응용 프로그램을 작성하는 중입니다. 텍스트 문서가 업로드되지 않았는지 여부를 확인해야합니다 데이터베이스에서 중복.
기본적으로 사용자가 새 파일을 업로드하면 중복되거나 유사한 콘텐츠가 포함 된 파일 목록을 제공 할 수 있습니다. 이렇게하면 기존 문서 중 하나를 선택하거나 자신의 파일을 계속 업로드 할 수 있습니다.
유사한 문서는 유사 콘텐츠에 대한 콘텐츠 및 동적으로 생성 된 키워드 목록을 조사하여 결정됩니다. 그런 다음 사용자에게 중복을 찾는 데 도움이되는 백분율 일치를 표시 할 수 있습니다.
이 과정에 대한 패키지와 과거에 어떻게했는지에 대한 아이디어가 있습니까?
내가 생각하는 직접 중복 공백
는 다음을 형성 대문자 모든 텍스트의 내용과
- 을 받고하여 수행 할 수 있습니다 새 문서와 비교할 MD5 해시입니다. 이러한 항목을 제거하면 사용자가 문서를 편집하여 예를 들어 추가 단락 나누기를 추가하는 경우 중복이 발견되지 않도록 방지 할 수 있습니다. 이견있는 사람?
이 프로세스는 야간 작업으로도 실행될 수 있으며 계산 요구 사항이 실시간으로 실행하기에 너무 큰 경우 다음 로그인시 사용자에게 중복 사실을 알릴 수 있습니다. 그러나 실시간이 선호됩니다.
MD5 해시를 사용하면 정확하게 동일한 두 문서 만 사용할 수 있습니다. 한 문자 만 다른 경우 결과 MD5 해시는 비슷한 위치에 있지 않습니다 (해시 지점 중 하나임). 따라서,이 비슷한 파일을 찾는 데는 효과가 없을 것입니다 ... – Franz
나는 그것을 깨닫습니다. 그게 내가 왜 비슷한 파일이 아닌 정확한 일치를 찾는 기술이라고 언급했는지. – Treffynnon