IBM Watson Text to Speech 서비스에서 생성 된 오디오의 샘플링 빈도는 얼마입니까?

Watson Text to Speech 서비스를 사용하여 MP3 파일 & WAV 형식의 오디오 파일을 생성하고 있습니다. 이 오디오의 기본 샘플링 빈도는 얼마입니까? API를 치는 동안 샘플링 속도를 지정하는 방법이 있습니까 (& WAV)? 텍스트에 대한 Watson Speech는 광대역 모델에 16 kHz의 오디오를 사용할 것을 권장합니다.IBM Watson Text to Speech 서비스에서 생성 된 오디오의 샘플링 빈도는 얼마입니까?

출처

2017-12-11 ShwetaJ

기본 샘플링 속도는 22,050 Hz이며 rate 매개 변수를 사용하여 지정됩니다. 설명서에서 볼 수있는 것은 선택적 매개 변수입니다. FYR - https://console.bluemix.net/docs/services/text-to-speech/http.html#format

출처

2017-12-11 22:42:04 Varun

답장을 보내 주셔서 감사합니다. 텍스트에 대한 Speech가 22,050 Hz 주파수 오디오에 대해 최대 정확도를 제공한다고 말할 수 있습니까? 나는 44100 Hz 주파수로 녹음 된 스테레오 음질의 오디오를 시도했다. 그 결과가 부정확합니다. 그러나 Text to Speech (기본 22050 Hz 주파수 사용)를 사용하여 생성 된 음성을 사용하면 정확한 결과를 얻을 수 있습니다. – ShwetaJ

정확도는 모르겠지만 오디오/wav; rate = 44100처럼 44100의 속도 매개 변수를 사용해 보셨습니까? – Varun

예. rate 매개 변수는 Speech to Text에서 작동하지 않습니다. 여전히 잘못된 결과를 제공합니다. – ShwetaJ

이 정보는 설명서에서 쉽게 찾을 수 있습니다.

TextTo 음성 음성이 22050 Hz로 생성되면 다른 출력 샘플링 속도를 강제 할 수 있지만 결과를 제공하기 전에 서비스가 다운/업 샘플링합니다.

SpeechToText는 일반적으로 BroadBand의 경우 16000 Hz, 협 대역의 경우 8000 Hz를 지원합니다. 가장 좋은 방법은 헤더, flac, wav (pcm이 아님)에 샘플링 속도 정보가있는 와서 컨테이너에서 오디오를 사용하는 것입니다. SpeechToText는 오디오가 실제로 관련 스펙트럼의 정보를 가지고 있어야하므로 16kHz로 8kHZ 전화 통신을 업 샘플링 할 수없고 광대역 모델로 보낼 수 없습니다.

출처

2018-02-16 12:54:31

IBM Watson Text to Speech 서비스에서 생성 된 오디오의 샘플링 빈도는 얼마입니까?

답변

관련 문제