2010-12-17 2 views
0

파일 저장소 (대부분 파일이있는 75,000 개의 파일 < 40MB 및 몇 기가 바이트의 비디오 및 그래픽 파일)가 있으며이 파일의 유사성을 서로 비교하여 확인하고 싶습니다. 간단한 조치.파일 유사성 평가 (언어 불가 지론 질문)

나는 거꾸로 된 것 (해시 키는 파일의 작은 변화에 따라 크게 다르다.이 숫자는 작은 변화에 약간 다름)을 제외하고는 해시 키와 같이 작동한다고 생각한다. 문서가 처리되고 번호가 생성되며이 번호 또는 코드를 비교하여 한 문서가 다른 문서와 얼마나 유사한지를 확인할 수 있습니다.

이것이 가능합니까? 누구든지 오픈 소스 구현이나 알고리즘을 알고 있습니까? 임의의 파일 형식을 포함해야하므로 검색 솔루션 (예 : Apache Solr)이 내가 원하는 대상이 아닙니다.

+0

궁극적 인 목표가 무엇인지 설명하면 도움이됩니다. 주어진 멀티 기가비트 미디어 파일이 다른 멀티 기가비트 미디어 파일과 닮았을 것으로 기대하십니까? –

+0

닉, 알아. 예를 들어 우리는 다양한 의료 절차의 여러 비디오 파일과 그 비디오 파일을 여러 번 잘라 냈습니다. 상처는 비슷해야합니다. – tjb

답변

0

특히 BLAST 및 FASTA에서 사용되는 알고리즘 인 생물 정보학 분야를 살펴보십시오.

이것은 종에서 매우 유사한 유전 암호의 하위 문자열을 식별하는 일반적인 연구 과제입니다.