2013-05-26 6 views
1

현재 음성 인식과 관련된 프로젝트를 수행 중입니다. 마우스 오른쪽 버튼 클릭, 왼쪽 클릭, 두 번 클릭 등과 같은 마우스 이벤트가 음성 명령으로 제공됩니다. 따라서 첫 번째 단계에서 상사가 멜 주파수 셉 스트 럴 계수를 사용하여 각 음성 명령의 기능을 추출하고 추출한 기능을 LIBSVM 형식을 사용하여 텍스트 파일에 저장하라고 지시했습니다. 나는 인터넷에서 어떤 참조를 사용하여 MFCC를 구현했다. 그러나 이것이 올바른지 나는 잘 모르겠습니다. 나는 MFCC의 출력에 대해 확신하지 못한다. 내가 어떤 하나 넣어의 왕이 LIBSVM 형식으로 MFCC에서 추출 기능을 저장하는 방법 MFCC Mel 주파수 셉 스트 럴 계수 - 음성 특징 추출

  • 에서 얻을해야하는지 설명 할 수 '오른쪽'

    e.g -15.211534 8.230449 2.150475 4.000576 -0.037819 -1.083192 0.102314 0.232710 -0.813507 -0.349909 0.850858 
    
    1. 을 말할 때 내 프로그램은 다음과 같이 제공합니다.
    2. 그리고 내 문제에 대해 올바른 mathlab 구현을 찾는 데 도움이 될 수 있습니다.
  • 답변

    0

    음성을 분석 할 때, 대부분의 현대 솔루션은 단 하나뿐 아니라 일련의 MFCC 계수를 사용합니다. 일반적으로, MFCC를 얻는 것은 이렇게되면 :

    complexSpectrum = fft(signal) 
    powerSpectrum = abs(complexSpectrum) ** 2 
    filteredSpectrum = melFilterBank(powerSpectrum) 
    logSpectrum = log(filteredSpectrum) 
    dctSpectrum = dct(logSpectrum) 
    

    그리고 당신은 10ms의 단계에서 신호를 따라 슬라이딩하는 30ms의 창에서이 작업을 수행. 자바가 더 익숙한 발견하면

    정확한 구현을 위해, 당신은, C (sfbcep의 UTIL) 또는 Sphinx 작성 Spro의 코드에서 배울 수 있습니다.