3

Google의 Cloud Speech API를 사용하려고합니다. 여기에 문서와 코드 예제가있다 :Google Cloud Speech API는 어떤 오디오 파일 유형을 인식합니까?

https://cloud.google.com/speech/docs/basics 
https://cloud.google.com/speech/docs/rest-tutorial 

내가 포함 된 파일을 가리 만약 내가 잘 실행하는 샘플 코드를 얻을 수 audio.raw 있지만 짧은 .wav 파일로. 오디오 어쩌면 10 초이 내 .wav 파일로

$ file audio.raw 
audio.raw: data 

내가 빈 결과를 얻을 :

나는 오디오 샘플 파일이 어떤 형식 모른다.

이 답변을 알고 있습니다.

google cloud speech api returning empty result

내 질문하기 전에 질문을 받았다하지만, 질문에 대한 대답은 없었다.

What types of audio are supported by Cloud Speech API?

나는 바로이 작업을 얻을 수있는 오디오 파일의 등록 정보를 얻을 수있을 것이라고 상상할 수 없다. 일반적인 사용 사례 인 광산은 누군가 회의를 녹음하고 녹음의 매개 변수를 모르고 텍스트 파일 만 원한다고 가정합니다.

+0

당신은 http://stackoverflow.com/questions/39712623/google-cloud-speech-api-returning-empty-result에 반응했다. 내 질문에 대한 어떤 생각? – Sol

+1

다른 용도로 사용하실 수 없습니다 (@foo는 여기에서 작동하지 않습니다) –

+0

잘 알고 있습니다. 감사. – Sol

답변

3

WAVe는 지원되지 않는 것 같습니다. 이러한 형식은 지원되는 것으로 문서화되어 있습니다.

  • LINEAR16 16 비트 서명 된 리틀 엔디안 샘플. speech.asyncrecognize에서 사용할 수있는 유일한 인코딩 인 입니다.
  • FLAC speech.syncrecognize 및 에 권장되는 인코딩으로 무손실 압축을 사용하므로 StreamingRecognize입니다. 따라서 손실 코덱으로 인식 정확도가 저하되지 않습니다. 16 비트 샘플 만 지원됩니다. STREAMINFO의 모든 필드가 지원되지는 않습니다.
  • MULAW G.711 PCMU/mu-law를 사용하는 14 비트 오디오 샘플을 포함하는 8 비트 샘플입니다.
  • AMR 적응 형 멀티 레이트 협 대역 코덱. sampleRate는 8000Hz 여야합니다.
  • AMR_WB 적응 형 다중 속도 광대역 코덱. sampleRate는 16000 Hz 여야합니다. 내가 볼 @ 알렉스

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

+0

감사합니다. 그게 내가 그 문제를 극복하게 만들었 어. sox를 설치하고 .wav 파일을 .flac로 변환했습니다. 이제는 별도로 연구하고 게시 할 다른 문제가 생깁니다. – Sol

+1

as flac :'16 비트 샘플 만 지원됩니다. STREAMINFO의 모든 필드가 지원되는 것은 아닙니다 .' 문서 확인 –

관련 문제