2008-09-08 6 views
3

다른 검색 엔진과 같은 웹 항목을 색인화하는 검색 엔진에 대한 아이디어가 있었지만 파일의 제목, URL 및 내용의 해시 만 저장합니다.해시로 검색 하시겠습니까?

이 방법은 이미 웹에있는 항목을 쉽게 찾을 수 있으며 출처를 알지 못했거나 무언가가 나타난 모든 장소를 알고 싶었습니다.

이미지, 실행 파일 및 아카이브와 같은 텍스트가 아닌 항목에 더 유용합니다.

이미 비슷한 것이 있는지 궁금합니다.

답변

4

체크 아웃 the wikipedia page on locality sensitive hashing을 확인하십시오. a good page hosted by a research on MIT도 있습니다.

문자열에는 해시 (예 : simhash), 집합 또는 0/1 기능 (예 : min-wise hashes), 실제 벡터에 사용할 수있는 여러 가지 맛이 있습니다.

숫자 해시의 주요 트릭은 기본적으로 dimension reduction입니다. 문자열의 경우 사소한 편집에도 견딜 수있는 표현을 제시하는 것이 좋습니다.

stackoverflow가 초기 작업을위한 적절한 장소가 아닐지 모르지만이 분야에 대한 연구도 진행 중입니다.

0

그것은 나쁜 생각이 아니다. 때로는 내가 어디서 왔는지 알아 내려고하는 파일에 비틀 거리다. :)하지만 어떻게 항목의 출처를 추적 할 것입니까? 콘텐츠는 웹 브라우저, 다운로드 관리자 등 다양한 수단으로 네트워크 공유에서 복사하여 얻을 수 있습니다.

0

귀하의 제안이 옳다는 것을 알고 계신다면 잠시 동안 http://bitzi.com/을 수행하셨습니다.

0

이 질문은 가장 가까운 이웃 접근법보다 더 잘 이해하는 정확한 일치 해시에 초점을 맞추는 것처럼 보입니다. 특히 사람들이 태그와 다른 메타 데이터를 이와 같이 공유 할 수 있다면 더욱 그렇습니다.

@rjmunro 메모에서 해시 기반 검색은 P2P 세계에서 인기있는 아이디어이며, Bitzi는 거의 종료되었지만 Bitpedia (Digital Media Encyclopedia)는 더 이상 호스팅되지 않았지만, 적어도 일부는 Archive.org에서 계속 사용할 수 있습니다.

Bitzi도 Bitcollider (SourceForge.net), 및 Magnet URI scheme과 같은 소프트웨어를 제작 했으므로 해시로 파일을 지정할 수 있으며 따라서 콘텐츠 기반 식별자입니다. 다양한 응용 프로그램은 위키피디아 페이지에서 설명한대로 자석 URI를 통해 다양한 데이터베이스에서 검색을 지원합니다.

동일한 아이디어가 암호 분열 장면에서 널리 사용됩니다. 한 단계 더가는 findmyhash - Python script to crack hashes using online services

, 나는 해시하여 내용을 확인하고 다양한 관점에서 콘텐츠에 대한 태그 및 기타 메타 데이터을 제공하는 데이터베이스 및 온라인 저장소이 있다면 그것은 좋은 것 같아요.그런 다음 내 음악 컬렉션을 원래 상태 (낭비되는 백업 공간 및 시간 없음)로 둘 수 있지만 외부 태그 데이터베이스를 통해 직접 태그를 지정하고 다른 메타 데이터를 추가합니다. 내 응용 프로그램에서 태그를 가져 오는 방법을 알고 있다면 현재 시스템에서 태그를 이동하기 위해 큰 파일을 수정하고 복사하는 시스템보다 훨씬 좋게 보일 것입니다. 내 바탕 화면을 내 전화로 가져옵니다.

관련 아이디어는 Metadata Independent Hashing for Media Identification & P2P Transfer Optimisation (pdf)을 참조하십시오.

관련 문제