2017-10-07 3 views
1

MIDI 트랙과 오디오 트랙이 사용하는 SoundFont를 알고 있다면 이론적으로 오디오를 MIDI 컴포넌트로 되돌릴 수 있습니까? 그렇다면이 작업을 수행하는 가장 좋은 방법은 무엇입니까?사용 된 SoundFont를 사용하여 가능한 한 정확하게 오디오를 MIDI로 분해 할 수 있습니까?

최종 목표는 오디오 (심지어 음성 샘플)를 MIDI로 인코딩하여 원래의 오디오를 BearFileConverter보다 MIDI 형식으로 재생할 수있게하는 것입니다. 그냥 대역 통과 필터 또는 FFT보다 나은 결과가 있기를 바랍니다.

아니요, 오디오 압축이나 시트 변환이 손실되지 않습니다. 이것은 주로 호기심 때문입니다.

+2

(1) 이것은 아마도 dsp.stackexchange.com 사이트에서 더 잘 질문 할 것입니다. (2) 이것은 부분적으로 해결되지 않은 연구 주제입니다. 수많은 연구 논문을 보려면 http://www.music-ir.org/mirex/wiki/MIREX_HOME – hotpaw2

답변

3

모노 포닉 음악의 경우에만 배경음이없고 SoundFont 합성 엔진과 녹음 샘플 속도가 정확히 일치하면 (1ppm 이상 동기화, 추가 효과 없음, 알려진 A440 기준 주파수 사용 인토네이션 등)를 사용하면 녹음 된 오디오의 교차 상관 세트를 사전 알 고리즘의 각 MIDI 피치에서 일련의 합성 파형 샘플과 비교하여 각 MIDI 노트에 대한 통계 가능성 시간 라인을 만들 수 있습니다 . 가장 가능성이 높은 MIDI 음표 발동 시간을 찾으려면 피치 범위, 임계 값 및 피크 선택에서 로컬 최대 값을 찾습니다.

또 다른 가능성은 슬라이딩 사운드 핑거 프린팅이지만 더 높은 계산 비용입니다.

불완전하게 일치 된 샘플 속도와 추가 된 잡음, 스피커 및 실내 음향 효과, 다중 경로 잔향 등으로 인해 실생활에서 실패합니다. 또한 자신의 배음과 매우 유사한 음표 파형에 대해 가양 성이 발생할 수 있습니다 . 음성 샘플은 모든 템플릿에서 훨씬 더 다양합니다.

밴드 패스 필터를 잊어 버리거나 FFT 진폭 피크를 찾지 마십시오. 이것은 거의 순수한 사인파에만 효과적이기 때문에 악기 나 재미있는 글꼴은 거의 들리지 않습니다 (또는처럼 지루합니다).

+0

최종 목표 비트의 경우 오리지널 사운드를 재생성하는 한 오 탐지는 문제가되지 않습니다. 일치하는 것이 배제됩니다. – Sonny6155

+0

거짓 긍정은 그 안에있는 원래 곡을 숨길 수있는 많은 음을 제공합니다. – hotpaw2

관련 문제