-1

KTH 데이터 세트를 사용하여 기본 동작 인식을 수행하려고합니다.비디오 처리에서 프레임 번호는 z 좌표입니까?

저는 UCF link의 3DSIFT 피쳐 추출기를 사용하고 있습니다. 주어진 x, y, z 좌표에서 SIFT 서술자를 추출합니다.

특징 감지를 위해 나는 동작 인식에 매우 효과적인 것으로 보인 selective-STIPS link을 사용하고 있습니다. 내가 바로 여기에 제공된 프레임 번호는 인 Z-좌표 3DSIFT에 의해 요구된다고 가정 할

@output : corner_points, P X 4 matrix, where P is the number of interest 
%   point found in the image_stack and each interest point contains 
%   4 values :: [X,Y] coordinate of the interest point, frame 
%   number, scale at which it is detected. 

암 : 저자에 의해 제공되는 소스 코드에 따르면, 다음과 같은 출력을 생성?

나는 동영상의 STIPS을 추출하고 필요한 출력을 가지고 있지만 모든 프레임에 여러 XY 값을 얻고있다 :

[71,24,1] 
[54,26,1] 
[86,29,1] 
... 
.. 
. 

이 예상 출력과 SIFT3D에 대한 입력을 가능?

+1

내가 수집 할 수있는 것으로부터 최소한 타사 도구 상자 나 코드 조각에 대해 묻지 않고 있습니다. 어떤 사람이 코드를 보지 않고 이러한 것들이 어떻게 작동하는지 알고 어떤 사람이 어떤 버전을 실행하고 있는지 알고 있습니까? –

+0

@AeroEngy 링크가 필요하다고 느끼지 못했는데 이것은 일반적인 질문이었고 특정 도구와 관련이 없습니다. 상자가 아니라 일반적인 비디오 인식. 하지만 지금 스크립트에 링크되어 있습니다. – StuckInPhD

답변

1

그렇습니다. 3dsift를 통해 다음과 같이 말할 수 있습니다. Z는 비디오를 처리 할 때 프레임 번호와 같습니다. 따라서 stips의 x, y, frame 출력은 3dsift에 대한 x, y, z 입력으로 작동해야합니다.