오디오 파일 (녹음 된 전화 대화 2 인)이 있습니다. 2 명의 스피커의 음성을 자동으로 분리해야합니다. 필자는 음성 인식에 익숙하지 않고 파이썬 모듈을 살펴 보았지만 열매 맺는 정보를 찾지 못했습니다.파이썬 스피커 인식
시작하는 방법을 알려주세요. 또한 문제 해결에 도움이 될 무료 파이썬 라이브러리를 제안 해주십시오.
오디오 파일 (녹음 된 전화 대화 2 인)이 있습니다. 2 명의 스피커의 음성을 자동으로 분리해야합니다. 필자는 음성 인식에 익숙하지 않고 파이썬 모듈을 살펴 보았지만 열매 맺는 정보를 찾지 못했습니다.파이썬 스피커 인식
시작하는 방법을 알려주세요. 또한 문제 해결에 도움이 될 무료 파이썬 라이브러리를 제안 해주십시오.
numpy로 시작하면 오디오 녹음에서 다른 음성을 구별하기위한 좋은 방법으로 spectrpgraphs (기본적으로 롤링 FFT)를 사용합니다.
여기 Matplotlib에서 스펙트로 그램 기능 : 당신은 단지 Windows 플랫폼에서 시작하는 경우 내가 Python(x,y)를 추천 할 것입니다
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
.
CMU Sphinx Python 라이브러리를 살펴보십시오. 자바로 개발 되었기 때문에 파이썬 라이브러리는 그저 래퍼라고 생각합니다. 이 프로젝트는 많은 연구를 진행하고 있습니다.
공식 위키 : http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python
체크 아웃 sciKits Talkbox : 여기에 리눅스에 대한 http://cmusphinx.sourceforge.net/wiki/이
빠른 시작 자습서는 http://projects.scipy.org/scikits/wiki/Talkbox
Unfortunutly 튜토리얼은 매우 제한되어 있습니다 : http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
분리의 작업을 의 경우 스피커 인식 작업이 아니라 스피커 인식 작업입니다. 스피치 기하학에서이 작업은 또한 스피커 분리 (diarization)라고도합니다. 스피커 diarization 및 스피커 인식을위한 여러 패키지 파이썬 사용할 수 있습니다
: 파이썬으로 제한되지 않는 경우
가, 다른 사람이 있습니다 LIUM speaker diarization
Speaker recognition setup in Kaldi. 최첨단 DNN 기반 i 벡터를 포함합니다.