비교를 위해 노래의 데이터를 사용하여 중복 된 mp3/4 파일을 검색하는 Python 스크립트를 작성하려고합니다. 내 상황에는 유사한 파일 이름을 가진 많은 mp3/4 파일이 있지만 ID3 태그는 다릅니다. 처음에는 md5를 반복적으로 사용하여 중복 파일 (파일 이름 무시)을 찾았습니다. 물론 이것은 ID3 태그가 일치하지 않을 때 작동하지 않았습니다.Python을 사용하여 MP3 음악 데이터에 액세스
결과적으로 mp3/4에서 음악 데이터 만 추출하여 md5를 실행하고 중복 된 음악을 찾을 수있는 방법을 찾고 있습니다. 이 문제를 해결하는 가장 좋은 방법은 무엇입니까?
음악은 '단순'* 데이터 비교를 쓸모 없게 만들 것입니다. (모든 것이 무손실 인 경우가 아니라면) 음악은 아마도 다른 비트율로 나타납니다. 따라서보다 고급 (아마도 통계적) 기법이 필요합니다. 나는 누군가가 다음과 같은 몇 가지 지침을 제공 할 수있을 것이라고 확신합니다. – ChristopheD
간단한 md5 대신 좋은 점, fft 빈도 분석이 더 적절합니다. 그러나 볼륨이 다를 수 있습니다. 그럼 당신은 두 ffts 사이의 상관 관계를 찾고 아마도 높은 상관 관계를 기대 가정? 어떤 곡에는 인트로 나 연설 같은 "foresounds"가 포함될 수 있기 때문에 까다로워집니다. –
@Hamish : 그가 다른 것으로 생각하고 싶어하는지 궁금합니다 (예를 들어, 특정 인트로 대 특정 스튜디오 레코딩과 함께 일부 노래의 라이브 연주). 그것은 정말로 "중복"을 정의하는 방법에 달려 있습니다. 이것은 꽤 흥미로운 문제가되고 있습니다. :) – Faisal