2009-05-08 4 views
9

기차 휘파람, 경적 (삐 삐) 등의 소리 패턴을 저장할 수있는 프로그램을 작성하고 싶습니다. 마이크를 통해 소리를 듣고 싶습니다 ... 소리가 들릴 때 어떤 행동을 취하십시오. 약간의 파이썬을 알고 VB에서 오랜 시간 전에 프로그래밍했습니다. 주로 Oracle, PLSQL입니다. 이 프로그램은 적당한 UI가 필요합니다.소리를 인식하고 동작을 수행하는 프로그램 작성

이 문제를 해결하기위한 최상의 솔루션 조합 (언어, 타사 추가 기능 등)은 무엇입니까?

+0

데스크톱에서 실행하거나 웹에서 실행할 수있는 프로그램을 원한다면 Flash 또는 Silverlight를 사용할 수 있습니까? –

+0

Ethan, Flash 또는 Silverlight 사용과 관련된 업데이트에 대한 내 대답을 참조하십시오. 댓글에 게시하기에는 너무 길었습니다. 나는 그것이 도움이되기를 바랍니다 .. –

답변

2

Sphinx은 음성 인식 시스템입니다. 예상대로 작동하도록 수정하거나 훈련받을 수도 있습니다.

3

내 생각에이 경우 가장 저항이 적은 경로는 타사 오디오 인식 라이브러리를 고급 언어 (예 : Java 또는 C# 또는 VB와 같은 .NET 제품군 언어 중 하나)와 함께 사용하는 것입니다 .그물).

Digital Sound Processing 및 오디오 인식에 대한 조사를 시작할 수 있습니다.

관심있는 기능이있는 라이브러리 또는 프레임 워크를 선택하고 원하는 언어로 바인딩을 찾으면이를 사용하여 구현을 시작하십시오.

MARF (자바 라이브러리)를 참조 어쩌면이 분야에서 마이크로 소프트의 작품은 System.Speech.Recognition 네임 스페이스를가는 가지 (이 나는 제대로 새로운 Windows 운영 체제에 통합되어 기억한다면)

편집 - 데스크탑 실행 대에서 웹

귀하의 솔루션이 데스크톱이나 웹에서 모두 작동하도록하려면 Flash 또는 Silverlight 사용에 대한 질문에서 의견을 구하십시오.

먼저 Flash와 Silverlight가 실제로 클라이언트 컴퓨터에서 실행된다는 점을 지적하고자합니다. 차이점은 웹 브라우저의 컨텍스트에서 실행되며 사용자가 응용 프로그램을 설치할 필요가 없다는 것입니다. 그렇지 않으면 데스크톱 응용 프로그램과 많이 다르지 않으므로 사용자는 브라우저에 Silverlight 플러그인을 설치해야합니다.

Flash, Silverlight 또는 Java Web Start을 볼 수있는 것보다 더 많은 것을 할 수 있습니다 (즉, 응용 프로그램을 설치할 필요가없는 사용자). 사실 MARF framework을 활용할 수 있기 때문에 실제로 JAVA Web Start가 좋은 후보가 될 것입니다.

그러나 Flash, Silverlight 또는 Java Web Start를 사용하기로 결정한 경우 클라이언트 시스템 리소스에 액세스 할 때 대부분의 "웹 기반 응용 프로그램 "일반적으로 필요하지 않습니다.

1

호른이나 기차 호루라기의 특정 녹음을 듣고 있다면 사전에 프로그램이 알고있는 경우 소리가 충분히 뚜렷한 경우이를 감지하고 구분할 수 있습니다 안정적으로

호른이나 기차 휘슬 소리처럼 이전에 들어 보지 못한 새로운 사운드를 분류하는 것은 훨씬 어려운 문제입니다.

사운드 식별 알고리즘은 일반적으로 녹음 된 사운드의 주파수 스펙트럼을보고 (디지털 사운드 프로세싱의 Miky D 링크 참조) 녹음 된 파형 자체가 아닌이 데이터에서 일부를 수행합니다 (pattern recognition).

언어 및 타사 라이브러리는 최소한의 소음으로 녹음 된 오디오 데이터를 얻을 수있는 방법을 찾아보십시오. Java는이 점에서 훌륭하게 보입니다 (자바 기계 학습 알고리즘 WEKA 참조). 음성 및 음악 분석을위한 프로그램/라이브러리가 있지만 임의의 사운드 용으로 설계된 프로그램/라이브러리는 모르므로 분석 알고리즘을 직접 작성해야 할 수도 있습니다.

0

내가 알고있는 대부분의 알고리즘은 소리를 구분하기 위해 spectrogram (즉, 스펙타움 대 시간)을 사용합니다. 이 문제가 얼마나 어려운지는 스펙트로 그램이 어떻게 다른지에 따라 달라질 수 있습니다.

음성과 쉽게 구분할 수있는 사운드의 측면은 명확한 고조파 구조 (예 : 위키 피 디아 링크의 음성보다 더 많은 바이올린 모양)를 갖게 될 가능성이 높습니다. 이 고조파 구조는 사운드를 구별하는 데 매우 유용 할 수 있으며 문제에 도움이 될 수 있습니다. 이것은 또 다른 장소를 생각 나게합니다. 사용자의 필요에 따라 확장 할 수있는 무료 소프트웨어에 대해서는 알지 못하지만 명확한 고조파 구조가있는 새 노래와 많은 알고리즘이 공개되어 있습니다. 그래도 새소리 분석 소프트웨어를 사용하여 사운드 파일을 살펴 보는 것이 유용 할 수 있습니다. 예를 들어 Raven 프로젝트를 참조하십시오. 다른 많은 무료 스펙트로 그램 패키지가 있습니다.

관련 문제