2017-01-23 6 views
2

전적으로 Microsoft인지 서비스를 처음 사용합니다. 나는 완전히 음성 통제 된 webproject를 만들고 싶다. 말하기 제어를 위해 저는 arytom.js를 사용하고 있습니다.이 사용법은 매우 간단하고 훌륭한 API입니다. 그것은 나를 위해, TTS와 STT를 위해 잘 작동합니다. 지금하고 싶은 일은 말하고있는 사람을 알아보고 데이터베이스와 비교하는 것입니다. 방금 Microsoft에서 발표 한 Speaker Recognition API를 발견했습니다. API 키가 이미 있는데 등록을 만들고 녹음 된 음성 샘플을 Micrososft 서버에 저장된 음성과 비교하려고합니다.Microsoft인지 서비스 - 스피커 인식 API 작업 방법

<!DOCTYPE html> 
<html> 
<head> 
    <title>JSSample</title> 
    <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.0/jquery.min.js"></script> 
</head> 
<body> 

<script type="text/javascript"> 
    $(function() { 
     var params = { 
      // Request parameters 
      "shortAudio": "{boolean}", 
     }; 

     $.ajax({ 
      url: "https://westus.api.cognitive.microsoft.com/spid/v1.0/identify?identificationProfileIds={identificationProfileIds}&" + $.param(params), 
      beforeSend: function(xhrObj){ 
       // Request headers 
       xhrObj.setRequestHeader("Content-Type","application/octet-stream"); 
       xhrObj.setRequestHeader("Ocp-Apim-Subscription-Key","{subscription key}"); 
      }, 
      type: "POST", 
      // Request body 
      data: "{body}", 
     }) 
     .done(function(data) { 
      alert("success"); 
     }) 
     .fail(function() { 
      alert("error"); 
     }); 
    }); 
</script> 
</body> 
</html> 

만약 Micrososft "shortAudio"에 따르면 : 공식 API의 코드 샘플은 다음과 같습니다 당신이 음성 시간의 양을 사용하여 식별을 시작하려는 경우, 당신은 "shortAudio"매개 변수를 포함해야한다 . 식별을 수행하는 데 필요한 권장 오디오 30 초를 면제하도록 서비스에 지시합니다. 이렇게하면 오디오 파일을 1 초에서 5 분 사이에 보낼 수 있습니다.

헤더에 넣어야하는 "Ocp-Apim-Subscription-Key"가 있는데, 어떻게 서버에 .wav 파일을 보낼 수 있습니까? 누구든지이 API를 시작하는 방법 . 불행히도 Microsoft는 실제 문서가 없습니다.

업데이트 : .wav 파일을 바이너리로 변환해야한다는 것을 알고 있습니다.이 API를 사용하여 전화를 걸기위한 예제 코드가 있습니까?

미리 감사드립니다.

+0

아무도이 문제에 대한 해결책이 없습니까? – Mixmarcil

+0

대답을 찾았습니까? 나는 비슷한 문제에 빠져있다. –

답변

0

이진 데이터는 특정 형식의 WAV 파일이어야합니다.

  • 컨테이너 : WAV
  • 인코딩 : PCM
  • 속도 : 16K
  • 샘플 형식 : 16 비트
  • 채널 : 모노

당신은 작업 예를 들어, 웹 페이지를 통해 확인하실 수 있습니다 여기 - 정확한 비트 전송률과 샘플 속도를 얻기 위해 recorderjs의 변경된 사본을 사용했습니다. (스피커 인식 API 예제 페이지를 리버스 엔지니어링하여 변경) WAV :

https://rposbo.github.io/speaker-recognition-api/

관련 문제