특정 트윗의 RT를 감지 할 수 있도록 데이터베이스에 각 형식화 된 트윗의 해시를 저장할 계획입니다.계산 방법으로 저렴한 Python 해싱 알고리즘을 사용하여 리트 윗 감지
어떤 해시 알고리즘을 사용해야합니까? 물론 암호는 필수적인 것은 아닙니다. 데이터를 효율적인 방법으로 동일하게 비교할 수있는 최소한의 방법으로 데이터를 저장하는 것입니다.
첫 번째 시도는 md5 해시를 사용하는 것이 었습니다. 하지만 보안이 필요하지 않으므로 훨씬 더 효율적 인 해싱 알고리즘이있을 수 있다고 생각했습니다.
CRC 저장 및 비교는 어떻습니까? – dirkgently
일부 문제에 대해 생각해보십시오. re-tweet은 're-tweet'에 대한 엄격하고 빠른 규칙이 없으므로 패턴 일치 문제에 더 가깝습니다. 결과적으로 원래 트윗의 일부만 사용할 수 있으므로 해시가 작동하지 않을 수 있습니다. 텍스트 인덱서를 사용하려면 – jottos
@jottos이 목적을 위해 RT로 시작하는 모든 단어는 retweets이며 90을 포함한다고 가정합니다. %의 오른쪽. 실질적으로 충분합니다. 나는 모든 @ 워드 RT 등의 트윗을 "정리"해야 할 것이므로 해싱이 가능할 수있다. –