2009-05-25 2 views
4

사운드 일치/검색 기술의 실제 상태는 무엇입니까? 나는 현재 원격으로 웹 응용 프로그램을 계획하고 있는데, 다른 사람들은 녹음 된 짧은 오디오 클립 (최대 3-5 초, 사람들의 이름)의 데이터베이스를 포함하고 노출합니다. 사용자 음성 입력을 기반으로 검색을 구현할 수 있는지 여부와 관련된 질문이 제기되었습니다. 내 직감은 웹 응용 프로그램에서 (특히 응용 프로그램의 핵심 기능이 아니라는 점에서) 알고리즘 적 관점뿐만 아니라 계산 측면에서도 불가능한 과제라고합니다. 아마도 많은 학술 프로젝트가 있으며 훌륭한 연구 주제가 될 것이라고 생각합니다.하지만 중간 규모 웹 응용 프로그램에 추가 기능으로 구현할 수있는 것은 아닙니다. 내 주장을 뒷받침하기 위해 나는 30 분의 시간을 들여서 아무 것도 놓치지 않을 것이고, 그러나 나는 좋은 소식통을 찾을 수 없었다.사운드 일치/검색

나는 스스로에 대해 더 많은 시간을 투자하지 않고 질문을하는 것은 그다지 책임이 없다는 것을 알고있다. 그러나 나는 그 질문에 대한 발사가 훨씬 더 효과적이며 정확하고 빠르다는 것을 알게되었다. 인터넷 검색.

+0

EchoNest가 유용 할 지 모르겠지만 당신이 그것을보고 싶을 수도 있습니다. – William

답변

6

본질적으로 오디오 파일을 해시하는 일부 오디오 지문 기술이 있습니다 (주로 독점적입니다). 그런 다음 검색은 쉬운 해시 테이블 또는 데이터베이스 조회입니다.

뮤직 브레인은 다양한 기술이 지문이 특정 상황에 적합한 또는 정확 여부 Here

의 좋은 런 다운을 가지고, 내가 당신에게 말할 수 없었다.

5

입력을 기반으로 스피커를 식별하려고하는지 또는 입력을 데이터베이스의 이름과 일치 시키려고하는지 확신 할 수 없습니다. 그러나 : 나는이 아이디어를 사용하여 두 개의 말의 '거리'를 계산하는 측정 항목을 개발했습니다. 구현을 거의 끝내지 못했지만 다음을 알아 냈습니다.

1) 오디오의 중요한 기능을 정의해야합니다. 이것은 닉이 대답에서 설명한 '해싱'부분입니다. 스펙트로 그램조차도 유용하기에 너무 많은 정보를 포함 할 수 있습니다. 음성 연구에 대한 이론적 지식없이 잠재적으로 흥미로운 접근법은 MFCC (즉, 주파수 빈도 셉 스트 랄 계수)입니다. etsi.org에는 무료 코드가 있습니다 (연설과 표준을 찾으십시오).

2) 스피치 속도가 달라질 수 있습니다. 동적 타임 워핑은이 문제를 해결하는 데 사용할 수 있습니다. 예를 들어 Matlab-code을 참조하십시오.

이 방법은 구현하기가 쉽지 않으며 많은 조정이 필요하다고 생각합니다. 그리고 그것은 분명 예술의 상태가 아닙니다.