어떻게 음성과 같은 소리를 텍스트로 변환합니까? (프로세스 자체)

물론 우리에게는 사용할 수있는 API가 있습니다.어떻게 음성과 같은 소리를 텍스트로 변환합니까? (프로세스 자체)

그러나 API를 사용하지 않으려는 경우 소리를 특정 텍스트로 지정할 수 있습니까?

그리고 실제로 사용자가 발성 한 소리와 사운드가 동일하다고 어떻게 판단 할 수 있습니까?

컴퓨터에서 소리가 들리면 무엇을 듣고 읽나요? 컴퓨터 언어로 어떻게 변환 되었습니까?

출처

2015-01-21 nycdanie

이것은 아주 똑똑한 사람이 흰색 페이지의 종이에 대답 뭔가처럼 보인다. 이 질문은 명시 적으로 대답하는 데 일주일이 걸릴 것이므로 온라인으로 살펴보십시오. – PeonProgrammer

API를 사용하지 않으려는 경우 소리를 특정 텍스트로 지정할 수 있습니까?

예 사용 가능한 사운드 datas (wav 파일과 같은 파일) 및 관련 텍스트 전사 사전의 유한 세트를 사용하는 경우. 아니

A.wav <-> "a" 
Aaa.wav <-> "aaa" 
B.wav <-> "b" 
Bee.wav <-> "bee" 
...

, 당신이 당신의 마이크를 통해 소리를 녹음하거나 음성이 동일하거나 유사한 방식으로 라이브 스트리밍하는 경우.

어떻게 당신이 실제로 그 소리는 사용자가 발언 소리 와 동일 확인할 수 있습니까?

이것이 람다 샘플 사운드를 제공하고 API를 사용하지 않고 유효한 텍스트로 변환 할 수없는 이유입니다. API는 소리 데이터의 이산 (수치/이진) 값 스트림을 읽고 분석하여 엄청난 양의 계산을 통해 도구를 만드는 도구입니다. 어떤 문자, 단어 또는 "음성 변환 가능 텍스트 데이터 "가 가장 적합합니다.

봐 "A의 서명을 ressembles (막연)

/\ /\ / \_ /\/ \/\/ \/

을 ... :
이
011110110110101010101010001010101101001010101010101010101010...

^^ 이것이 (coul)는 2D에서 다음과 같습니다 사운드 데이터 "(다만보기, 실제로 이것은 진실하지 않다). 그런 다음 API는 "a"를 출력합니다.

API도 노이즈 서명이있는 데이터를 삭제하려고 시도합니다. "p", "s", "tr", "tr", "tch"와 같은 일부 문자의 서명이있는 경우 "pops"및 "sssh"유물과 마찬가지로 현재 처리 된 데이터 청크가 유지합니다 ...

컴퓨터에서 소리가 들리면 무엇을 듣고 읽나요?

컴퓨터에 아무런 소리가 들리지 않습니다. 이 컴퓨터 언어에

011110110110101010101010001010101101001010101010101010101010...

을 번역하는 방법 : 그것은 단지 데이터를 처리하는거야?

이것은 이미 컴퓨터 언어 인 이진 형식입니다. 마이크에서 말하는 경우 마이크 내부의 하드웨어 장치는 공기가 전달하는 진동을 이진 데이터로 변환합니다. 그 데이터는 케이블을 통해 마이크 장치에서 컴퓨터로 전송됩니다 (컴퓨터에 연결된 3.5 잭). 그러면 사운드 카드가 작동합니다.

사운드/비디오 파일은 이미 이진 데이터입니다. 컴퓨터가 숫자 데이터를 가청음으로 변환하지 않습니다. 스피커의 역할입니다. 결국

: (물건의 적절한 이름이다) 작업 Voice recognition 시스템을 얻을 수있는 간단한 방법은 NO입니다

. 사용할 수있는 API 중 단 하나만이 100 % 완전하고 안전합니다. 그러나 그들 대부분은 그 일을 잘합니다.
SO에 하나의 주제에 쉽게 맞지 않을 것 같은 API를 구현하는 데 필요한 지식의 양은
...

출처

2015-01-21 20:05:45

답변 해 주셔서 감사합니다. 포인트 부족으로 아직 투표를 할 수 없습니다. 제 질문에 답해 주셔서 감사합니다. 다시 한번 감사드립니다. – nycdanie

내 대답은 어쨌든 upvote 자격이되지 않습니다. 왜냐하면 그것이 실제로 예상 답변이 아니기 때문입니다 :) 음성 인식은 전체 과학입니다. 예를 들어 일부 API는 영어의 "음색"에서는 잘 작동하지만 "프랑스어로" "이야기하다"는 경우 99 %의 시간 동안 실패합니다. 하나의 정의 된 언어로 임의의 사운드 데이터를 텍스트로 변환하는 것이 하나의 주제입니다. 다른 언어는 완전히 다른 주제입니다. 뒤로 변환하는 것이 더 쉽지만 음성 톤과 "컨텍스트"를 추가해야합니다 (행복하거나 분노하면 같은 방식으로 "좋아"라고 말하지 않습니다 ...) 남성과 여성의 목소리가 다릅니다 ... 그 이유는 무엇입니까? 지금까지 내가 아는 유일한 길은 API 다. –

어떻게 음성과 같은 소리를 텍스트로 변환합니까? (프로세스 자체)

답변

관련 문제