오디오 콘텐츠를 기반으로 온라인 시청각 데이터를 분류하고 분류해야하는 프로젝트에서 작업하고 싶습니다. 즉, 오디오 비주얼 데이터의 여러 부분이 세그먼트 화되어 침묵, 음악 , 연설, 연설 + 배경 음악 등 오디오 콘텐츠를 기반으로합니다.온라인 시청각 데이터에 대한 오디오 콘텐츠 분석
시청각 데이터에서 오디오 부분을 가져 와서 제로 크로싱, 스펙트럼 피크 등과 같은 기능을 추출하고 오디오 데이터를 분류하기 위해 세그먼트 경계를 찾아야한다는 것을 알고 있습니다.
하지만 처음에는 길을 잃었습니다.
프로젝트를 시작하는 방법을 모르겠습니다. 소프트웨어의 출력 등 침묵, 연설, 음악, 같은 다른 범주 시청각 데이터의 세그먼트입니다
누군가가 나를 알 수 있다면 정말 도움이 될 것입니다프로그래밍 언어는이 목적을 위해 편리
- ?
- 이 소프트웨어를 개발하기 위해 수행해야 할 단계는 무엇입니까?
디지털 신호 처리에 대한 배경 지식이 없습니다. 어떤 조언을하면 도움이 될 것입니다.