2017-01-09 1 views
1

나는 정기적으로 웹 페이지 목록에 주석을 긁어 데이터베이스에 삽입하는 파이썬 스크립트가 있습니다. 그러나 아직 데이터베이스에없는 주석 만 삽입합니다. 다음 주석이 이미 삽입되었는지 확인해야 할 필요가있을 때 각 주석의 해시를 본문과 함께 저장하는 것이 얼마나 실용적입니까? 그들의 시체 만 이야기하고 단어별로 단어를 비교하는 대신? 빠른 경우 어떤 종류의 해시를 사용해야합니까? Md5 또는 ....?단어 또는 해시로 텍스트 단어 2 개 비교

avarage 설명은 약 1000 단어입니다. 하나의 문자 차이로 인해 다른 해시가 발생한다는 것을 알고 있습니다. 괜찮습니다.

답변

3

Jaccard Index과 같은 것을 사용할 수 있습니다. 심지어 부분 일치를 검색 할 수있게하거나 일치 항목을 거부하거나 선택하도록 임계 값을 설정할 수 있습니다 (즉 유사한 텍스트)

Jacquard 거리를 효율적으로 수행 할 수있는 Minhashing을 찾아 볼 수도 있습니다. 몇 개의 문자 차이가 일치하여 같은 양동이 (Check Locality Sensitive Hashing)가되는 이점. 임계 값을 설정해야하지만 정밀도/리콜 문제는 해결해야 할 문제입니다.

+0

질문은 내가 사용할 수있는 것이 아니지만 무엇을 사용해야합니까. – Jodooomi