기계 학습을 사용하여 오디오 클립에서 사람의 음성을 추출하는 방법은 무엇입니까?

우리는 기계 학습을 사용하여 전체 주파수 도메인에서 많은 잡음을 가질 수있는 오디오 클립에서 사람의 음성을 어떻게 얻을 수 있습니까?기계 학습을 사용하여 오디오 클립에서 사람의 음성을 추출하는 방법은 무엇입니까?

2014-03-07 user3392464

어떻게 마침내 이것을 해결 했습니까? –

ML 응용 프로그램과 마찬가지로 프로세스가 간단합니다. 샘플을 수집하고, 기능을 분류하고, 분류기를 교육하십시오. 샘플의 경우 잡음이 많은 녹음을 사용하거나 freesound.org와 같은 웹 사운드 컬렉션에서 많은 잡음을 찾을 수 있습니다. 평균 정규화 멜 주파수 계수를 사용할 수있는 기능의 경우 구현을 CMUSphinx speech recognition toolkit에 있습니다. 분류 자의 경우 GMM 또는 SVM을 선택할 수 있습니다. 충분한 데이터가 있다면 꽤 잘 작동 할 것입니다.

정확도를 향상 시키려면 노이즈와 음성이 연속적이라는 가정을 추가하면 모든 프레임을 개별적으로 분석하는 대신 음성 청크를 감지하는 숙취 스키마 (본질적으로 HMM)로 탐지 기록을 분석 할 수 있습니다.

출처

2014-03-07 13:22:37

이것에 대한 좋은 참고 자료를 제공해 주시겠습니까? – user3392464

물론, 어떤 종류의 참조를 찾고 계신가요? –

잡음 분석기의 배경 이론 및 음성 인식을위한 몇 가지 자료. 미리 감사드립니다 !! – user3392464

기계 학습을 사용하여 오디오 클립에서 사람의 음성을 추출하는 방법은 무엇입니까?

답변

관련 문제