2012-05-25 5 views
3

내 음성을 녹음하고 내 컴퓨터에 wav 파일로 저장합니다. 나중에 나는 말하고 컴퓨터는 내 음성 명령과 기존/미리 녹음 된 wav 파일을 일치시켜야합니다.두 개의 오디오 데이터를 비교하는 방법은 무엇입니까?

질문 : 두 오디오 데이터가 같은지 확인하거나 두 오디오가 80 % 일치합니까?

if(audio1 == audio2) 
    DO Task A 
else if(audio1 is a bit similar to audio 2) 
    DO TASK B 
else if(audio1 (80% match) audio 2) 
    DO TASK C 
end if 

두 오디오 데이터를 비교하는 가장 좋은 방법은 무엇입니까?

+0

오디오 데이터에 따라 다릅니다. 목소리인가요? 음악인가요? 순수한 음색입니까? 일반적인 샘플은 어떤 길이입니까? –

+0

@DavidBrabant 네 음성 만 .. – Somnath

+0

내 컴퓨터에 내 음성 명령이 될거라 생각합니다."Do this", "Do that"for me .. – Somnath

답변

1

비슷하게 숫자가 순전히 의미합니까? 이 경우 상호 상관 유형 분석으로 충분할 수 있습니다. 그렇지 않은 경우 음향 샘플에 대한 청취자의 청각 적 인식이라는 측면에서 유사한 의미라면 음향 지문을 읽어야합니다.

편집 : 나는 당신이 음성 인식의 간단한 양식을하려는 갱신에서 같은데요

, 맞습니까? 이 경우 매우 제한된 코퍼스 내의 신호에 대해 최적의 일치를 얻기위한 최상의 옵션은 Dynamic Time Warping (DTW) 기반 인식기입니다. Hidden Markov Model 기반 인식 시스템은 최첨단 기술이지만 DTW 기반 시스템은 구현하기가 훨씬 더 간단합니다.

+0

내 질문을 업데이트했습니다. 확인해주십시오. – Somnath

0

많은 사람들이 더 많은 정보를 줄 수 없다면 다른 사람들도 제안했듯이 간단한 해결책이 없습니다. 만약 그들이 시간이 지남에 따라 많이 변하지 않는 매우 짧은 소리라면, 한 가지 가능성은 FFT를 수행하고 FFT의 결과를 비교하는 것입니다.

좀 더 복잡한 경우 비슷한 방법을 사용할 수 있지만 STFT를 수행 할 수 있습니다.

그러나 모든 경우에 귀하의 질문에 대한 도메인 별 답변이 있습니다.

+0

내 컴퓨터에 내 음성 명령을 내릴 것입니다. "Do this", "Do that"for me .. – Somnath

+0

더 자세한 내용을 설명했습니다. 게시물을 업데이트했습니다. 확인해주십시오. – Somnath

2

Homemade Speech Recognition에서 몇 가지 아이디어를 찾을 수 있습니다. 이는 .NET 컴팩트 프레임 워크 용이지만 일반 vanilla .NET에 쉽게 적용 할 수 있습니다. 솔루션은 고속 푸리에 변환을 기반으로합니다.

3

불행히도 오디오 파형을 직접 비교하려고 시도하는 데는 아무런 시간도 걸리지 않습니다. 음성 및 화자 인식에 대한 엄청난 양의 연구가 있으며 기초에 익숙하지 않으면 휠을 다시 발명 할 것입니다. 난 당신이 몇 가지 선택이 여기에 당신이 정말로 HMM에, DTW (learnvst에서 언급 한 바와 같이)에 대한 책을 읽은

  • 시작을 수행하려는 작업에 따라 생각하고, Mel-frequency Cepstral Coefficients은 어디서부터 시작 알고.
  • 는 당신이 당신의 응용 프로그램에 구축 할 수있는 낮은 수준의 신호 처리, 처리 소요 Microsoft one으로 기존의 음성 API를 사용
  • 사용 뭔가 더 높은 수준의 그런 당신의 측면을 제어 할 수있는 능력을주는 Windows Speech Recognition Macros

음성 처리를 통해 PC를 배우고 싶습니다 (상당한 양의 수학이 포함될 것입니다). 또는 작동하는 것을 원하는지 여부에 달려 있습니다. 적은 코딩으로.

관련 문제