2016-11-14 2 views
1

저는 파이썬, 특히 음악 오디오에서 오디오 파일을 분석하고 있습니다. 주파수 도메인에서 데이터를 얻기 위해 DFT (FFT)를 적용했지만 검색 량은 없습니다 또는 주위를 들먹 거리는 것은 주파수에서 "봉우리"/ 로컬 맥시마를 식별하는 좋은 방법을 밝혀 냈습니다. 내 데이터는 꽤 시끄럽다. 푸리에 변환을 적용한 후의 그래프의 예가 아래에있다. 도움말 정말 감사하겠습니다. 또한이 데이터에서 MFCC 계수를 검색하는 방법을 살펴보고 있지만, 그 방법에 대해서도 잘 모르기 때문에 해당 주제에 대한 지식도 유용 할 것입니다. 먼저FFT 데이터의 로컬 최대 값을 식별하는 방법

FFT of Audio File

+0

나는 간단하게 데이터를 부드럽게하기 위해 적절한 너비 (10Hz가 좋은 것처럼 보임)로 평균을 수행하고, denoised 신호에 대해 로컬 최대 값을 찾습니다. – Julien

+0

https : // github. co.kr/jameslyons/python_speech_features, "반복하지 말라", "바퀴를 다시 만들지 마라" – eyllanesc

답변

0

, 당신은 로우 패스 필터링을 실행하여 (FFT) 데이터를 원활하게 할 필요가있다. 그 후, 신호 그라디언트에서 제로 크로싱을 찾을 수 있습니다. [-1, 1]을 사용하여 신호를 필터링하여 그 레이디 언트를 찾고 이전 프레임이 양수이고 후속 프레임이 음수 인 요소를 선택할 수 있습니다.

관련 문제