2016-10-07 3 views
2

Microsoft인지 인식 스피커 인식 API를 사용하여 스피커 다이어리 문제를 해결하는 응용 프로그램을 작성하려고합니다.Microsoft인지 기능을 통한 실시간 스피커 인식

을보고 APIs documentation을 읽으면 서비스에 wav 파일을 보내야한다는 인식을 이해했습니다.이 서비스는 실시간으로 내 목표에 어긋납니다.

누군가가 그것에 대해 조사를 했습니까? 이러한 API를 사용하여 실현 가능합니까 아니면 다른 도로를 찾아야합니까?

답변

0

Google에 음성 API가있는 것처럼 스트림 방식이 없습니다. 새 프로필을 등록하려면 30 초가 필요하지 않습니다. 최근 연습에서 ~ 10 초 동안 성공적인 결과를 얻었습니다. MS API의 핵심 문제는 여러 명의 강연자와 관련된 제한 사항입니다. 별도의 오디오 트랙으로 나누는 방법을 직접 찾아야합니다. 그렇지 않으면 가장 먼저 알려진 음성을 인식합니다.

1

등록에는 30 초의 데이터가 필요합니다. 사용자 프로필이 있으면 1 초 샘플에서 사용자를 식별 할 수 있으므로 매우 작은 지연으로 거의 실시간으로 수행 할 수 있습니다. 이것을 사용하려면 shortAudio parameter을 설정해야합니다. 신원 확인이 그보다 더 빨리 작동한다고 상상하기는 어렵습니다.

다른 뭔가가 필요한 경우보다 유연한 작업을 수행 할 수있는 Kaldi과 같은 오픈 소스 음성 도구 키트가 있습니다.

관련 문제