2011-11-20 6 views
7

다른 많은 사람들처럼 내 자신의 음성 인식 엔진을 만들기로 결정했습니다. 그것이 밝혀 졌을 때, 전혀 쉽지는 않지만, 특히 영어로 성취하기가 다소 어려웠습니다. 왜냐하면 단어가 쓰여지는 방식과 발음되는 방식 사이에 극적인 차이가 있기 때문입니다. 조지아 출신이어서 그루지야 어로 음성 인식을하기로했습니다. 그루지야 어에서는 단어를 정확하게 쓰는 방식으로 발음합니다. 그것은 필사자와 같습니다. 이 사실로 인해 업무가 크게 줄어들 것입니까? 아니면 더 어려워 ... 어려움이 있습니다. D?음성 인식 엔진 작성

+1

Btw, 내 친구가 최근 Georgian ASR을 만들었습니다. 관심이 있으시면 알려주세요. –

+0

Nika, 소프트웨어를 만들었습니까? 당신이 한 것을 공유하십시오, 우리는 그러한 소프트웨어가 존재한다면 역시 관심이 있습니다. –

+1

내가 할 수있는 가장 쉬운 방법은 AI Multilevel Perceprtrons 또는 그와 유사한 것 (신경망을 뜻함)을 사용하고 훈련하는 것입니다.이 솔루션을 사용하면 Yahia가 대답에 쉽게 언급 할 수있는 문제를 해결할 수 있다고 생각합니다. , GL;) – Simon

답변

9

음성 인식은 많은 특정 알고리즘, 도구 및 방법이있는 복잡한 도메인입니다. 수 당신이 CMUSphinx 오픈 소스 음성 인식 툴킷을 시작할 수 있습니다 자신의 엔진을 만들려면 당신에게 :

  • 수집 및 프로세스 데이터는
  • 연설을 구현
  • 그루지야어
  • 의 모델을 만들기 그루지야어 언어를 지원하는 데 필요한 조지아주의 인식 엔진.
  • 사용 엔진은

CMUSphinx 이미 영어, 독일어, 스페인어, 프랑스어, 네덜란드어, 러시아어, 북경어, 아이슬란드 어, 이탈리아어를 지원 (OpenEars을 통해) 서버 또는 아이폰에, 데스크톱에서 실행되는 음성 인식 응용 프로그램을 만들려면 및 다른 많은 언어. 새로운 것을 추가하는 것은 매우 간단합니다.새로운 사람들에게는 필요한 과정을 수행하는 데 보통 한두 달 정도의 집중적 인 작업이 필요합니다. 튜토리얼

http://cmusphinx.sourceforge.net/wiki/tutorial

당신은 질문이있는 경우에는, 여기 포럼이나 그들을 문의하시기 바랍니다

http://cmusphinx.sourceforge.net

읽기 :

은 홈페이지를 방문 시작하세요!

그루지야 어를 말할 때 소리를 철자한다는 것은 매우 일반적인 오해입니다. 세계의 대부분의 언어에서는 사실이 아닙니다. 가설을 테스트하려면 오디오 편집기에서 오디오를 녹음하고 실제로 발음되는 사운드를 확인하십시오. 너는 놀랄거야. 위의 자습서에서는이 질문에 대해 자세히 설명합니다.

+0

그래서 조지아와 같은 절대적으로 비경쟁적인 언어를 추가 할 수 있고 몇 달 후에 "잘 ​​만드십시오"라는 뜻입니까?!?! – nicks

+0

예, 그렇습니다. 사실 CMUSphinx는 저비용 언어를 지원하기 위해 많은 발전을 이루었습니다. –

5

조지아의 모든 사람들이 완전히 동일한가요? 내가 ... 음성 인식에 큰 문제가 많이 직접 언어 자체와 관련이없는 생각하지 않는다 :

  • 다른 사람 (여성, 남성, 아동, 노인 등), 때로는 같은 다른 음색
  • 이 사람이 감기에
  • 다른 배경이
  • 일상 언어가 때로는 다른 언어에서 단어가 포함되어 소음이있을 때 사람은 예를 들어 서로 다른 소리에서
  • 어떤 사람 없습니다 (당신은 미국/영어 독일어 단어 유치원을 가지고있는 것처럼) 나라 자체가 랑그를 배웠다. 나이
  • 어떤 사람이 다른 사람이 항상이 일을 해결 마이크

의 느린

  • 품질을 말하는 빠른 말 (그들은 일반적으로 서로 다른 소리가) 당신의 상단에 ... 꽤 어렵다 언어/발음 교정을 받아야합니다 ... 저는 그루지야 어를 모르지만 당신이 묘사 한 것이 그 일을 조금 더 쉽게 만들지 만 여전히 어려운 일이 될 것입니다.

    편집 - 의견에 따라 : 시간 프레임을 절감하고도 품질에 도움이 ...하지만 모든 라이브러리가 아마도 다른 오디오 -에 화려한 임에도 불구하고 음성 인식을위한 좋은 수있는 좋은 라이브러리를 사용

    관련 사항은 ... 참고로

    는 위키 백과 문서 http://en.wikipedia.org/wiki/Speech_recognition를 참조 - 그것은 몇 가지 링크와 좋은 출발점 책 참조를 포함하여 좋은 개요를 가지고 ...

    가에 관해서는 것은 이러한 API 참조 설계하는 방법 예 : http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html

  • +0

    다른 사람들의 소리에 대해 : 사실, 심지어는 절대적으로 똑같지는 않다고 생각하더라도, 말하기 조지아 어는 전사를 읽는 것과 같기 때문에 큰 유사성이 있습니다. 거기에는 선택의 여지가 많지 않다고 생각합니다. – nicks

    +2

    @NikaGamkrelidze 두 명의 다른 사람에게서 같은 단어를들을 수 있다면 그 사람을 구별 할 수 있을지 의심 스럽습니다 (어머니 대 아버지 대 친구와 같은 사람)? – Yahia

    +0

    물론 : DDD 나는 본다. 그것은 여전히 ​​어렵습니다 : SS,하지만 어떻게 생각하십니까,이 영역에서 완전한 멍청한 놈 (수학을 많이 알고 오디오 편집을하는 프로그래머에게 나쁜 것은 아니지만)을 사용하여 하강 음성 인식 엔진을 작성할 수 있습니까? 1 년을 말해 주시겠습니까? – nicks