2017-04-13 2 views
-1

음성에서 텍스트로 MP3 오디오 파일을 사용할 수 있습니까? Watson API?음성 - 텍스트 오디오 형식

음성 - 텍스트 Watson API에 대해 널리 지원되지 않는 형식은 무엇입니까?

+0

어려움을 겪고있는 어떤 시도가 있습니까? (예 : 수동으로도 도움이되지 못합니다)? 당신이 묻는 모든 것은 이미 그들의 사이트에서 응답되어야합니다. –

답변

0

난 당신이 경우에, WAV 포맷을 사용하는 것이 좋습니다 없습니다. 케이스 사용에 달려 있습니다.

MP3을 정말로 사용해야하는 경우 간단하게 convert MP3 to WAV를 할 수 있습니다.

하지만, 지원을 텍스트로 형식의 연설은 다음과 같습니다

  • 오디오/FLAC : 무료 무손실 오디오 코덱 (FLAC), 무손실 압축 오디오 코딩 형식. 자세한 내용은 en.wikipedia.org/wiki/FLAC을 참조하십시오.

  • 오디오/L16 : 선형 16 비트 펄스 부호 변조 (PCM ), 비 압축 오디오 데이터 형식입니다. 이 미디어 유형을 사용하여 원시 PCM 파일을 전달합니다. 선형 PCM 오디오는 컨테이너 WAV (Waveform Audio File Format) 파일 내에 상주 할 수도 있습니다. 자세한 내용은 Internet Engineering Task Force (IETF) RFC (Request for Comment) 2586 및 en.wikipedia.org/wiki/Pulse-code_modulation을 참조하십시오.

  • 오디오/WAV : 파형 오디오 파일 형식 (WAV), 마이크로 소프트와 IBM에 의해 생성 된 표준입니다. WAV 파일은 비 압축 오디오 비트 스트림에 자주 사용되지만 압축 오디오를 포함 할 수있는 컨테이너입니다. 자세한 내용은 en.wikipedia.org/wiki/WAV를 참조하십시오. 이 서비스는 인코딩을 사용하는 WAV 파일을 지원합니다. FFmpeg 제한으로 인해 최대 9 개 채널의 오디오를 수신합니다.

  • audio/ogg/ audio/ogg; codecs = opus/audio/ogg; 코덱 = vorbis : Ogg는 Xiph.org Foundation에서 관리하는 무료 개방형 컨테이너 형식입니다. 자세한 내용은 www.xiph.org/ogg/를 참조하십시오. 두 코덱 모두 자유롭고 개방적이며 손실이 많은 오디오 압축 형식입니다. Opus가 선호되는 코덱입니다. 코덱을 생략하면 서비스가 입력 오디오에서 자동으로 감지합니다.

  • 오디오/WEBM/ 오디오/WEBM, 코덱 = 오푸스/오디오/WEBM, 코덱 = 보비스 : 웹 미디어 (WebM을)가 열린 미디어 파일 형식입니다; 자세한 내용은 webmproject.org를 참조하십시오. WebM은 Opus 및 Vorbis 오디오 코덱으로 압축 된 오디오 스트림을 지원합니다. Opus가 선호되는 코덱입니다. 코덱을 생략하면 서비스가 입력 오디오에서 자동으로 감지합니다. Chrome 브라우저에서 마이크의 오디오를 캡처하여 WebM 데이터 스트림으로 인코딩하는 방법을 보여주는 JavaScript 코드의 경우

는하지만, 더 세부 모든 형식은Official Documentation을 텍스트로 연설에서 볼 수. 자세한 내용을 편집하고 문서를 읽을 것을 권장합니다. 일반적으로 IBM의 문서는 매우 객관적이며 완전합니다.

0

음성에서 텍스트로의 변환을 위해 특정 오디오 형식을 선택하는 데 어려움을 겪지 마십시오. 대부분의 수동 음성에서 텍스트 또는 transcription services은 사용 가능한 모든 형식을 허용합니다. 자동 음성을 텍스트 서비스로 전환 할 때 오디오의 품질을 잃지 않고 대부분의 음성 엔진에서 수락하지 않고 상위 비트 오디오 데이터가 포함되어 있기 때문에 항상 mp3보다 wav를 선호합니다. 그리고 다음은 전사 회사가 지원하는 형식 목록입니다. https://www.transcriptionwave.com/format.html

관련 문제