2012-07-16 4 views
3

Siri와 같은 소프트웨어는 음성 명령을 받아 해당 질문에 적절하게 응답합니다 (98 %). 음성 신호의 입력 스트림을 받아서 그 질문에 응답하는 소프트웨어를 작성할 때,Siri와 같은 음성 인식

입력을 사람이 읽을 수있는 언어로 변환해야합니까? 영어 같은?

자연에서와 마찬가지로 우리는 매우 다양한 언어를 사용하지만, 말할 때 기본적으로 다른 소음을냅니다. 그게 전부 야. 그러나 우리는 소음 변화를 나타내는 소위 알파벳을 만들었습니다.

내 질문은 우리가 음성 인식 알고리즘을 작성할 때입니다 우리는 이러한 잡음 변화 신호를 우리의 데이터베이스와 비교합니까 아니면 먼저 이러한 잡음 변화를 영어로 변환 한 다음 데이터베이스에서 무엇을 대답 할 것인지 확인하십시오.

답변

2

당신이 말하는 "노이즈 변화 신호"는 phonemes입니다. 음성 인식 시스템이 이러한 음소를 단어로 변환하는 방법은 시스템 유형에 따라 다릅니다. 시리 (Siri)는 문법 기반 시스템이 아니며, 음성 인식 시스템에 일련의 규칙을 기반으로 기대하는 구문 유형을 알려줍니다. Siri는 열린 맥락에서 말을 번역하기 때문에 아마도 어떤 유형의 통계 모델링을 사용할 것입니다. 오늘날 음성 인식을위한 널리 사용되는 통계 모델은 숨겨진 마르코프 모델입니다. 관련된 데이터베이스가 있지만 음소 그룹을 단어로 간단히 검색하는 것이 아닙니다. 번역 과정과 문제에 대한 높은 수준의 설명이 번역 here입니다. 자연 언어 이해를 바탕으로

2

애플의 시리를 ... 나는 Refer This Article
뉘앙스는 음성 인식 시스템 개발의 선두 주자입니다 .. 뉘앙스는 장면 뒤에 생각합니다. 뉘앙스 드래곤 엔진의 정확도 ... 단지 놀라운입니다 내가 Nuance Dragon SDK for Android을 시도
메신저가 IVR 시스템에 대한 뉘앙스의 NOD 서비스를 소비하고 근무 클라이언트 ... 내 경험에서

는 뉘앙스를 사용하는 경우 소음 편차 등을 걱정할 필요가 없습니다.
하지만 기업용 애플리케이션을 출시 할 때 Nuance는 비용이 많이 듭니다.

Power of voice를 사용하여 애플리케이션을 구동하려는 경우 Google API 또한 더 나은 선택입니다 ...

과 같은 API가 있습니다.및 pocket sphinx은 음성 응용 프로그램 개발에 도움이 될 수 있습니다 .. 위의 모든 API는 잡음 제거 및 음성 변환을 텍스트 등으로 처리합니다.

의미 론적 이해를 위해 시스템을 구축하는 것만으로도 충분합니다. 주어진 String 또는 인식 된 음성 내용의 의미. Apple은 매우 의미 적 의미 해석기를 가져야합니다. Nuance SDK를 사용해보십시오. Android, iOS, Windows Phone 및 HTTP 클라이언트 버전에서 사용할 수 있습니다.

나는 당신을 도울 수 있기를 바랍니다.

+0

Karthikeyan, nice write up thanks man! 그러나 나는 시스템이 어떻게 작동하는지에 대해 더 많은 지식이 필요했다. :) – doNotCheckMyBlog

+0

스핑크스와 PocketSphinx는 오픈 소스입니다 ... 그들이 구현 한 방법과 방법을 이해하려고하지 않으시겠습니까? :) –