작은 이미지 호스팅이 있고 많은 중복 콘텐츠가 있다는 것을 깨달았습니다. 체크섬이나 해시 코드를 사용하여 미래에이 문제를 없애기 위해, 새로 업로드 된 파일을 해쉬하고 기존 이미지 해시 데이터베이스와 비교하여 이미 존재하는 경우 삭제하고 사용자에게 기존 이미지 링크가 제공됩니다. 하나의 인스턴스에 모두
내 설정은 barebones Node.js + jQuery File Upload + 2 개의 디렉토리 (포럼 업로드의 경우 하나, 직접 웹 업로드의 경우 하나)입니다.
Node.js 서버에서 중복되는 콘텐츠 피하기
각 디렉토리에 수천 또는 수 백만 개의 파일이있을 가능성을 고려할 때 가장 적합한 (빠른 & 신뢰할 수있는) 해시 및 데이터베이스 설정은 무엇입니까? 나는 MD5 나 SHA1이 과잉이라고 생각하고 많은 자원을 필요로 할 수도있다. 더 간단한 해결책이 있는지 알고 싶습니다.
통계 : 서버에서
~ 1,000 이미지 업로드 일상
~ 400킬로바이트 평균 이미지 크기
~ 35,000 이미지
~ 30 % 중복 된 내용이
내 사용 사례를 감안할 때 나는 충돌 공격에 대해 걱정해야한다고 생각하지 않습니까? –