4

Windows CE 음성 지원 응용 프로그램 개발을 위해 사용 가능한 음성 인식 엔진 및 SDK를 연구하려고합니다. 나는 Nuance를 가로 지르지 만, 다른 것을 많이 보지 않습니다. 가능한 경우 .Net SDK를 선호하지만 C/C++가 가장 많을 것이라고 생각합니다. 나는 어떤 제안을 주셔서 감사합니다. 감사. 마이크로 소프트의 음성 API를 조사임베디드 응용 프로그램 용 음성 인식 엔진

답변

0

위의 의견 중 하나에서 설명한 것처럼 우리는 Vangard Voice Systems의 음성 인식 .Net SDK를 사용하려고합니다. Nuance의 Vocon3200 음성 인식 엔진을 사용하여 초기 테스트에서 잘 작동하는 것으로 나타났습니다. 우리는 지금 저렴한 마이크를 사용하고 있으며 외부 소음에 몇 가지 문제가 있습니다. 다행히 소음 제거 헤드셋으로 해결 될 수 있기를 바랍니다. 소프트웨어 모델은 기본적으로 기존의 비 음성 응용 프로그램에 연결된다는 점에서 약간 부족합니다. 이 사실로 인해 몇 가지 제한 사항이 있으며 개발자가 액세스 할 수있는 제한된 API가 있습니다. 이런 식으로 지나치게 단순화하려고 할 때마다 강력한 솔루션을 만드는 것이 훨씬 어렵습니다. 그 말로는 모바일 응용 프로그램의 음성 지원을 위해 .Net SDK의 필요성에 부응하는 경쟁 제품을 찾을 수 없었습니다. 그들은 현재 멋진 작은 틈새 시장이 새겨 져 있습니다.

Nuance의 C++ SDK (.Net 래퍼를 작성한 다른 회사)와 함께 가고 싶었지만 Nuance 비즈니스 모델은 우리가 재판매 제품을 개발 중이며 상당한 로열티가 소요되었다고 가정합니다. 내부 응용 프로그램을 개발하려는 회사의 진정한 장벽.

0

시도, http://msdn.microsoft.com/en-us/library/ms897381.aspx

나는 그것이 CE 디바이스에서 실행 믿습니다.

+0

내가 알기론 SAPI는 CE 장치에서 사용할 수 있지만 실제 음성 인식 엔진은 사용할 수 없습니다.그것은 제 3 자로부터 개발되거나 구매되어야합니다. – Dustin

+0

아, 죄송합니다. 나는 당신이 옳다고 생각합니다. 필요한 인터페이스를 제공한다고 말하지만, 스스로 엔진을 개발해야 할 수도 있습니다. 다음은 무시하십시오. –

1

Nuance는 기본적으로 모두를 구입했습니다. 그들은 음성 시장을 지배합니다. 나는 두려워요 ...

이 기술을 다루는 몇 가지 회사가 있지만 임베디드 시장에서 얼마나 잘 작동하는지 모르겠습니다. telismaLoquendo이 있으며 둘 다 영어가 아닌 영어가 유창합니다 (영어도 그리 나쁘지 않습니다).

그렇다면 여전히 IBM이 있습니다. 그들은 ViaVoice Embedded입니다.

업계에서 기다리고있는 큰 것 중 하나는 마이크로 소프트가 TellMe을 인수 한 내용을 보는 것이다. 그러나 나는 "클라우드"로 처리를 푸는 대신에 임베디드 시장을 떠날 것으로 생각한다. TellMe는 오랫동안 계속되어 왔습니다.

+0

Nangance의 음성 인식 엔진을 .Net 응용 프로그램에 연결할 수있는 Vangard Voice Systems의 SDK를 사용하기로 결정했습니다. 지금까지는 잘 작동하는 것으로 보이지만 훨씬 더 주변 소음이있는 진정한 작업 환경으로 옮기면 테스트에 적용 할 것입니다. 기존 응용 프로그램에 SDK를 "개발"해 놓은 방식으로 약간 기이하게 만듭니다. 그것은 단순한 일을하는 것이 정말 쉽지만 더 강력하고 우아한 솔루션을 만드는 것이 훨씬 어렵습니다. – Dustin

1

저는 IVR 어플리케이션과 함께 작업합니다. Nuance 외에도 현재 Microsoft, IBM 및 Lumenvox를 평가 중입니다.

대부분의 휴대 전화에 포함 된 음성 인식 응용 프로그램은 음성 입력을 이전에 구어체와 일치 시키도록 설계되었습니다. 예를 들어 "Joe"라는 단어를 주소록 항목에 할당하고 전화를 걸 때 전화 번호부 항목을 말하면 "조". 보다 강력한 음성 인식 엔진은 문구를 phonemes으로 쪼개고 음향 저장소와 일치시켜 실제로 말한 것을 알아 내려고하여 자유형 음성을 해독하려고합니다. 완전한 음성 인식 엔진은 상당량의 CPU 마력을 필요로합니다. 모바일 장치에서 음성 인식과 복잡한 작업을 수행하려면 처리를 위해 장치에서 서버로 데이터를 보내야 할 수 있습니다.

0

오픈 소스 프로젝트 CMU Sphinx도 있습니다. 그들에는 휴대용 장치를 위해 표적으로 한 PocketSphinx이라고 칭한 이체가있다.