온라인 시청각 데이터에 대한 오디오 콘텐츠 분석

오디오 콘텐츠를 기반으로 온라인 시청각 데이터를 분류하고 분류해야하는 프로젝트에서 작업하고 싶습니다. 즉, 오디오 비주얼 데이터의 여러 부분이 세그먼트 화되어 침묵, 음악 , 연설, 연설 + 배경 음악 등 오디오 콘텐츠를 기반으로합니다.온라인 시청각 데이터에 대한 오디오 콘텐츠 분석

시청각 데이터에서 오디오 부분을 가져 와서 제로 크로싱, 스펙트럼 피크 등과 같은 기능을 추출하고 오디오 데이터를 분류하기 위해 세그먼트 경계를 찾아야한다는 것을 알고 있습니다.

하지만 처음에는 길을 잃었습니다.

프로젝트를 시작하는 방법을 모르겠습니다. 소프트웨어의 출력 등 침묵, 연설, 음악, 같은 다른 범주 시청각 데이터의 세그먼트입니다

누군가가 나를 알 수 있다면 정말 도움이 될 것입니다

프로그래밍 언어는이 목적을 위해 편리

?
이 소프트웨어를 개발하기 위해 수행해야 할 단계는 무엇입니까?

디지털 신호 처리에 대한 배경 지식이 없습니다. 어떤 조언을하면 도움이 될 것입니다.

출처

2012-02-04 user1188979

GStreamer과 같은 멀티미디어 프레임 워크를 살펴 보시기 바랍니다. 그것은 크로스 플랫폼이지만, 리눅스가 시작된 곳에서 시작하는 것이 가장 쉽습니다. 이미 오디오 및 비디오를 수신, 디 먹스 및 디코딩 할 수있는 모든 종류의 플러그인이 제공됩니다. 또한 두 가지 분석기 (음성 및 음성 활동 탐지를위한 레벨 및 스펙트럼 분석기)가 있습니다. 그것들은 실험을위한 좋은 출발점이 될 수 있습니다. Gstreamer 자체는 C로 작성되었지만 응용 프로그램은 Python, Perl, C#, C++, Java 등의 언어 바인딩을 사용할 수 있습니다.

출처

2012-02-27 08:43:52 ensonic

온라인 시청각 데이터에 대한 오디오 콘텐츠 분석

답변

관련 문제