0

오디오와 시각적 기능을 나란히 분석하려고합니다. 내 음성 음성 기능은 Hidden Markov Model Toolkit을 사용하여 100fps로 샘플링 된 멜 주파수 주해 계수입니다. 내 시각적 기능은 내가 구축 한 립 추적 프로그램에서 나온 것이며 29.97fps로 샘플링됩니다.비디오 기능을 업 샘플링/보간하는 간단한 기술?

샘플링 속도도 100fps가되도록 시각적 기능을 삽입해야한다는 것을 알고 있지만 온라인으로하는 방법에 대한 설명이나 튜토리얼을 찾을 수 없습니다. 내가 찾은 도움의 대부분은 독자를 대신하여 보간에 대한 지식을 가진 음성 인식 커뮤니티에서 나옵니다. 즉 대부분의 경우 단순한 "샘플 속도가 100fps가되도록 시각적 기능을 보간"하는 단계로 이루어져 있습니다.

누구든지 나를 올바른 방향으로 이끌 수 있습니까? 얼굴 움직임 이후 만

+0

이 질문은 http : //dsp.stackexchange,com에 더 적합 할 수 있습니다. 프로그래밍보다는 * 신호 처리에 관한 것이기 때문입니다. –

답변

1

비디오 캡쳐 전에 저역 통과 필터링없는

덕분 고전 DSP 보간 방법의 대부분은 적용되지 않을 수있다. 기능 벡터의 선형 보간을 시도하여 한 세트의 시간 지점에서 다른 시간 지점 세트에 도달 할 수도 있습니다. 가장 가까운 2 개의 비디오 프레임을 선택하고 중간에 더 많은 데이터 포인트를 얻기 위해 보간하면됩니다. 얼굴 추적 알고리즘이 얼굴 움직임의 가속도를 측정하는 경우 스플라인 보간을 시도 할 수도 있습니다.

+0

감사합니다 :-) 나는 당신의 제안을 시도해 볼 것입니다 :-) – skymonkey

관련 문제