현재 약 1,000 억 개 항목의 데이터 세트에 해시 테이블을 구현 중입니다. 대부분이 중복되어 (약 75 %) "고유 한"값 세트가 조금 더 작습니다.하나의 128 비트 해시 대 두 개의 다른 64 비트 해시 (비 암호화)?
나는 100 % 충돌을 피할 수는 없다는 것을 알고 있지만, 적어도 그럴 가능성은 희박합니다. 아이디어는 하나의 해시가 충돌하면 다른 하나가 충돌하지 않는다는 가정에서 두 개의 다른 해시 함수에 대해 테스트하는 것이 었습니다. 참조 : bloom-filter.
이제 내 질문에 - 통계적으로 두 배 크기의 단일 해시를 사용하는 것과 똑같지 않습니까? 그럼 Murmur3 64 대신 CityWash 64와 Murmur3 128을 가정 해 봅시다.