2016-07-15 3 views
2

자동차 환경에서 음성 분리로 음성 인식 정확도를 높이고 싶습니다. 소음, 라디오 음악 및 다른 화자의 음성이 항상 혼합 될 수 있기 때문에 다루어야 할 음성은 문제입니다.FASST를 사용한 음성 분리

음성을 두 부분으로 나누고 싶습니다. 하나는 내 목소리이고, 다른 하나는 정의 된 일반적인 잡음입니다. 이를 위해 HTK에서 스피커 별 GMM 모듈 (내 목소리)을 학습 한 다음 FASST를 사용하여 음성을 분리합니다. 이게 효과가 있다고 생각하니?

답변

1

NMF의 경우 대신 openblissart를 사용합니다. 또 다른 좋은 생각은 이미 그렇게하지 않으면 스테레오로 녹음하는 것입니다.

HMM과 Kaldi 대신 DNN 모델로 전환하면 대부분의 소스 분리에서 얻을 수있는 것보다 훨씬 개선 할 수 있습니다. DNN을 사용하면 멀티 스타일 트레이닝을 할 수 있으며 노이즈 분리보다 훨씬 우수한 성능을 발휘합니다. Kaldi 소스에서 CHIME 실험 설정을 확인하여 노이즈가 강한 인식기를 학습하는 방법을 확인할 수 있습니다.