Microsoft인지 인식 스피커 인식 API를 사용하여 스피커 다이어리 문제를 해결하는 응용 프로그램을 작성하려고합니다.Microsoft인지 기능을 통한 실시간 스피커 인식
을보고 APIs documentation을 읽으면 서비스에 wav 파일을 보내야한다는 인식을 이해했습니다.이 서비스는 실시간으로 내 목표에 어긋납니다.
누군가가 그것에 대해 조사를 했습니까? 이러한 API를 사용하여 실현 가능합니까 아니면 다른 도로를 찾아야합니까?
Microsoft인지 인식 스피커 인식 API를 사용하여 스피커 다이어리 문제를 해결하는 응용 프로그램을 작성하려고합니다.Microsoft인지 기능을 통한 실시간 스피커 인식
을보고 APIs documentation을 읽으면 서비스에 wav 파일을 보내야한다는 인식을 이해했습니다.이 서비스는 실시간으로 내 목표에 어긋납니다.
누군가가 그것에 대해 조사를 했습니까? 이러한 API를 사용하여 실현 가능합니까 아니면 다른 도로를 찾아야합니까?
Google에 음성 API가있는 것처럼 스트림 방식이 없습니다. 새 프로필을 등록하려면 30 초가 필요하지 않습니다. 최근 연습에서 ~ 10 초 동안 성공적인 결과를 얻었습니다. MS API의 핵심 문제는 여러 명의 강연자와 관련된 제한 사항입니다. 별도의 오디오 트랙으로 나누는 방법을 직접 찾아야합니다. 그렇지 않으면 가장 먼저 알려진 음성을 인식합니다.
등록에는 30 초의 데이터가 필요합니다. 사용자 프로필이 있으면 1 초 샘플에서 사용자를 식별 할 수 있으므로 매우 작은 지연으로 거의 실시간으로 수행 할 수 있습니다. 이것을 사용하려면 shortAudio parameter을 설정해야합니다. 신원 확인이 그보다 더 빨리 작동한다고 상상하기는 어렵습니다.
다른 뭔가가 필요한 경우보다 유연한 작업을 수행 할 수있는 Kaldi과 같은 오픈 소스 음성 도구 키트가 있습니다.