2

시끄러운 환경에서 pocketsphinx의 인식 정확도를 높이려고합니다. 그러나 사용자는 변수 환경에서 앱을 사용할 수 있습니다. 그러므로 소음을 이용한 훈련은 내가하고 싶은 일이 아닙니다.pocketsphinx 이전의 노이즈 감소로 인식 정확도 감소

제 질문은 음성 신호를 pocketsphinx로 보내기 전에 노이즈 감소가 필연적으로 인식 정확도를 떨어 뜨릴까요?

예인 경우, 노이즈 감소 후 어떤 기능을 유지해야합니까? 현재 WER은 노이즈 감소를 사용하면 ~ 40 % (자유 형식 언어)에서 ~ 60 %까지 올라갑니다.

그냥 추가하면 말소리가 노이즈 감소 후 더 잘 들립니다.

Pocketsphinx argfile: 

-lm lm_giga_64k_vp_3gram.DMP 
-dict lm_giga_64k_vp.sphinx.dic 
-hmm voxforge_en_sphinx.cd_cont_5000 

생각이 여기 노이즈 감소를 활성화하고 노이즈 감소 알고리즘이 완전히 신호의 스펙트럼 내용을 엉망으로하지 않는 직관적으로이 이상적으로 발생해야와 음성 인식 정확도의 증가를 설명하는 것입니다.

도움을 주시면 감사하겠습니다.

답변

3

현재 노이즈 감소를 사용하면 WER가 ~ 40 % (자유 형식 언어)에서 ~ 60 %까지 올라갑니다.

1) 당신은 노이즈 감소하지 않고 오래된 pocketsphinx을 사용하는 구식 모델

2)를 사용하는 다음과 같은 이유로

는 아주 나쁜 요금입니다.

외부 노이즈 감소는 대개 음성 인식 정확도를 떨어 뜨립니다. 운 좋게도 최신 pocketsphinx는 자체 노이즈 감소 모듈을 갖추고있어 노이즈에 강합니다. 업데이트 만하면됩니다. 최상의 결과를 얻으려면 다음을 수행해야합니다

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Acoustic%20Model/en-us.tar.gz/download

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/cmusphinx-5.0-en-us.lm.dmp/download

:

1) 최신 음향 및 언어 모델을 다운로드 http://github.com/cmusphinx

2에서 최신 sphinxbase 및 pocketsphinx 사용) 다운로드 그러면 적절한 기준을 설정할 수 있습니다. 노이즈 감소를 실험하기 위해 오프 당신이 명령 라인 설정 옵션을 사용할 수 있습니다 잡음 견고성을 포함하여 정확도를 감소하는 방법에 대한 자세한 조언을 들어

-remove_noise yes/no 

을 당신은 더 나은 당신이 원하는 오디오의 테스트 샘플을 제공해야 인식합니다. 자세한 내용 참조 : 빠른 응답 니콜라이에 대한

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

+0

감사합니다. 최신 소스와 모델을 다운로드하고 결과를 얻으려고합니다. –

+0

또한 cmusphinx에 대한 최신 정보가 모두 유지되는 웹 페이지에 대한 링크를 게시 할 수 있다면 도움이됩니다. 현재 나는 sourceforge에서 여러 페이지를 보았지만 그 중 일부는 오래된 버전/기능을 나타낼 수 있습니다. 다시 한번 감사드립니다. –

+0

Nikolay, 최신 모델뿐만 아니라 최신 버전의 pocketsphinx 및 sphinxbase로 테스트를 실시했습니다. 나는 아직도 약 39 %의 WER를 얻고있다. 총 단어 수 : 8674 정확 : 5711 오류 : 3457 총 정확도 = 65.84 % 오류 = 39.85 % 정확도 = 60.15 % 총 삽입 수 : 494 삭제 수 : 472 대체 수 : 2491 내가 무엇입니까? 실종 됐어? pocketsphinx와 함께 제공되는 cmu07a.dic을 새로운 언어 모델과 함께 사용했습니다. –

관련 문제