2010-04-24 2 views
6

저는 이미지 처리 및 패턴 인식에있어서 매우 새로운 기술입니다. DoG 피라미드를 만들고 각 옥타브에서 로컬 최대 또는 최소를 식별 할 수있는 SIFT 알고리즘을 구현하려고합니다. 내가 이해할 수없는 것은 각 옥타브에서 이러한 로컬 최대/분을 사용하는 방법입니다. 이 점수들을 어떻게 합치 는가?SIFT에서 DoG Pyramid를 사용하는 방법

제 질문은 매우 사소한 것 같습니다. 나는 Lowe의 논문을 읽었지만 DoG 피라미드를 만든 후에 그가 한 일을 정말로 이해할 수 없었다. 도움을 주시면 감사하겠습니다.

은 기본적으로 자신이 개 피라미드를 건설 한 후 무엇을 그 이미지의 극값을 감지하는 당신에게

+0

당신이 읽은 종이는 어느 것입니까? –

답변

4

감사드립니다. 그 후, 아마 불안정하기 때문에 그는 발견 된 지역 극한치의 일부를 버립니다. 이러한 불안정한 키포인트/기능 확인의 처리가 두 단계로 수행된다 : 낮은 대비를

  1. 거부 ​​점 저조한 가장자리 지역화 점을 거절
  2. (그들이 한 방향으로 강한 에지 반응한다는 것을 의미 only)

이 단계를 수행하려면 먼저 Taylor 계열 확장을 사용하여 극한값의 실제 위치를 얻어야합니다. 이 두 단계를 해결하기위한 정보를 제공합니다.

최종 단계는

나뿐만 아니라이 알고리즘을 공부하는 과정에있어 그리고 난 그렇게 사소한 이해하고 찾을 수없는 ... 기술자를 구축하는 것입니다. Lowe의 논문에 포함되지 않은 몇 가지 세부 사항이 있으므로 그것이 이해하기 어렵게 만듭니다. 이 알고리즘을 더 깊이 설명 할 많은 추가 리소스를 찾지 못했지만 일부 오픈 소스 구현이 있으므로 이들을 사용할 수도 있습니다.

편집 : 자세한 내용은 :

종이 당신이 링크 된 그의 초기 작품이며, 일부 수정이 있기 때문에 당신은 종이의 최신 버전을 얻어야한다. 더 많은 자료 검색 나는 그의 특허도 읽었으며 이전 정보도 포함되어 있기 때문에 거기도 보지 말아야합니다.

그래서이 저울 공간 극한치 단계에 대한 나의 이해는 다음과 같습니다. 첫째, 우리는 가우시안 피라미드를 만들어야합니다. 페이퍼는 로컬 익스트림 완전성을 위해 s + 3 옥타브마다 가우시안 이미지를 구축해야한다고 말합니다. 로우 테스트에서는 = 3으로 가장 좋은 결과를 얻었습니다. 그래서 우리는 각각의 옥타브에서 5 개의 DoG 이미지를 얻는 6 개의 가우스 이미지를 가지고 있음을 의미합니다. 이 모든 DoG 이미지는 동일한 해상도를 갖습니다. 재 샘플링은 다음 옥타브로 넘어갈 때만 수행됩니다.

다음 단계는 로컬 극한치를 찾는 것입니다. Lowe는 26 개의 이웃을 검색 할 것을 제안합니다. 이는 두 번째 이미지에서 검색을 시작해야한다는 것을 의미합니다. 이는 이웃이 26 개의 이웃에 대한 첫 번째 이미지이기 때문입니다. 마찬가지로 우리는 네 번째 이미지에 대한 검색을 중지합니다. 이 과정은 각 옥타브마다 개별적으로 반복됩니다. 발견 된 극한치마다 적어도 그 위치와 규모를 저장해야합니다. 익스트림마가 다음 단계를 찾으면 Taylor 시리즈로 수행되는보다 정확한 현지화가 될 것입니다.

이이 단계의 작품과 내가 너무 멀리 진실 :

희망이 조금 더 도움에서 아니에요 희망하는 방법에 대한 이해이다.

+0

답변을 주셔서 감사합니다. 그렇습니다. 나는 그 종이가 너무 분명하지 않다는 것에 동의합니다. –

+0

로우 (Lowe)의 논문도 읽었습니다. 이해할 수없는 것이 하나 있습니다. 그것이 바로 국부적 인 극한치를 키포인트로 선택하는 이유입니까? – Alcott

1

vlfeat은 SIFT를 포함한 여러 가지 컴퓨터 비전 알고리즘을 구현하는 오픈 소스 라이브러리입니다. 수행중인 내용을 더 잘 이해하려면 해당 소스 코드를 볼 수 있어야합니다.

제대로 각 옥타브의 극값을 발견하는 경우, 당신은 할 수 있습니다

  1. 이 극값 낮은 콘트라스트와 가장자리의
  2. 거부의 규모와 위치에 대한 자세한 피팅을 수행
  3. 응답이 시점에서 남아있는 각 기능

,

    ,174,
  1. 검출 된 피처의 스케일에 상대적으로 창 크기 내에서 우세한 방향을 계산하십시오.
  2. SIFT 디스크립터 표현을 작성하십시오 (4x4 방향의 공간 히스토그램 그리드에 그라디언트를 축적하여). 이것은 paper의 6.1에 설명되어 있습니다.

내가 도움을 얼마나 받았는지 잘 모르겠다.

+0

안녕하세요, 답변 주셔서 감사합니다. 내가 붙어있는 곳은 DoG 피라미드를 만들고 각 옥타브에서 로컬 최대 값과 최소값을 찾은 후에 옥타브의 다른 레벨에서 최대 값 또는 최소값을 일치시키는 방법입니다. 방금 Lowe가 자신의 논문 (http://www.cs.ubc.ca/~lowe/papers/iccv99.pdf)에서 1,5 픽셀 간격으로 쌍 선형 보간을 사용하여 이미지를 리샘플링하여 피라미드를 만들었다는 사실을 깨달았습니다. 그런 다음 픽셀을 26 개의 이웃 픽셀과 비교 한 후 1,5 회 리샘플링을 고려하여 피라미드의 다음 최저 레벨을 계산합니다. –

+0

그러나 로우 (Lowe)는 피라미드의 애호가 수준에서 핵심 포인트에 대해 언급하지 않았으며, 당신이 제공 한 종이에서 카운트하는 방법도 언급하지 않았습니다 (2004 년 최신). 내가 붙어 있던 곳. 어쩌면, 테일러 연장은 트릭을, 나는 잘 모르겠다. –

0

두 개의 피라미드가 있습니다. 가우스 및 DoG 피라미드. 가우시안 피라미드에는 6 개의 흐릿한 이미지가 있습니다. DoG는 이러한 이미지의 차이이므로 DoG에는 5 개의 이미지가 있습니다. 가우시안 피라미드와 아무 관련이 없습니다. 이 모든 것은 첫 번째 옥타브에 있음을 유의하십시오! 첫 번째 피라미드를 만들 때 이미지의 크기를 조정하고 두 번째 옥타브의 새로운 피라미드를 만들기 시작하십시오.

원본 이미지가 512x512라고 가정 해 보겠습니다. 첫 옥타브에서는 모든 이미지가 512x512이지만 두 번째 옥타브에서는 모든 이미지가 256x256입니다. 다시 6 개의 이미지 가우시안 피라미드와 5 개의 피라미드가 있습니다. 그러나 그들 모두는 두 번째 오크에 256x256입니다. 3 옥타브는 언급 할 필요가 없습니다.

이제 미니 마와 맥시마가 일치합니다. (처음 옥타브에 있음) 첫 번째 옥타브에서 최대를보고 있습니다. DoG 피라미드를 사용해야하고 두 번째 이미지부터 시작해야합니다. 픽셀을 취하여 최대 값인지 계산합니다. 이 계산에서는 DoG 피라미드의 1, 2, 3 번째 이미지를 사용해야합니다. 완료되면 2, 3 및 4 번째 이미지를 고려하여 3 번째 이미지에서 최대 값을 찾으십시오. 마지막으로 3, 4, 5 번째 이미지를 고려하여 4 번째 이미지에서 최대 값을 찾습니다.

이제 첫 번째 ocatave에서 믹 마마를 찾은 후 다음 옥타브로 이동하여이 단계를 반복하십시오.

관련 문제