2017-12-21 8 views
1

음성 인식에 새로운 기능이므로 제발 내 잘못을 용서해주십시오. 비상 라디오 방송의 사본을 얻으려고합니다 example1example2. 분명히 진보 된 ASR (자동 음성 인식) 도구로는 아무 것도 이해할 수 없기 때문에 나는 잘못된 것을하고 있습니다.긴급 라디오 녹음의 음성 인식

나는 IBM Watson, Google Speech 및 심지어 Cobalt을 시도했습니다. 그들 중 누구도 오디오에서 가장 기본적인 정보를 수집 할 수 없습니다.

두 부분으로 나뉜 질문이 있습니다. 위의 예와 같은 오디오는 ASR 도구를 통해 사용할 수 있습니까? API를 보내기 전에해야 할 몇 가지 변환이 있습니까?

+0

음성 인식의 작동 원리를 알고 있습니까? – matt

답변

2

위와 같은 오디오는 ASR 도구를 통해 사용할 수 있습니까?

예, 당신은 꽤 안정적으로 인식 할 수 있지만 기존의 오디오 품질에서는 작동하지 않으므로 맞춤형 ASR 시스템을 구축해야합니다.

API를 보내기 전에 수행해야하는 변환이 있습니까?

아니요, 매우 구체적인 종류의 데이터에 대해 숙련 된 특수 모델을 사용하는 것이 훨씬 더 생산적입니다.

코발트는 맞춤 솔루션을 제공 할 수 있습니다. Kaldi와 같은 오픈 소스 툴킷을 사용하여 직접 모델을 구축 할 수 있습니다. 이러한 종류의 오디오를위한 특수 솔루션을 확인하는 또 다른 회사는 Adacel이며 공항 타워에서 작동하므로 유사한 유형의 오디오를 사용합니다.

주제에 대한 연구는 사용자 정의 Apollo mission transcription system에 대한 프로젝트를 확인할 수 있습니다.

더 나은 품질의 오디오를 얻으려면 더 많은 노력을 기울여야합니다.

+0

우수! 비록 내가 내 일을 저에게 맡긴 것처럼 보일지라도 이것은 정확히 내가 알아야 할 필요가있는 것이다. –