0

ImageNet 데이터의 Tensorflow에서 미리 준비된 VGG16을 객체 로컬 라이저로 사용하려고합니다. 그들의 논문에서 그룹은 기본적으로 softmax 레이어를 제거하고 바운딩 박스 회귀를 위해 4D/4000D fc 레이어를 버리는 것으로 언급합니다. 나는 여기서 멋진 것을하려고하지 않고있다. (슬라이딩 윈도우, RCNN) 그냥 평범한 결과를 얻는다.CNN 개체 현지화 전처리?

저는 이것에 익숙하지 않습니다. 여기서는 현지화를 위해 수행 된 전처리에 대해 혼란스러워합니다. 이 논문에서 그들은 이미지를 가장 짧은면으로 256으로 스케일 한 다음 중앙 224x224 자르기를 사용하여 이것을 훈련한다고 말합니다. 나는 모든 것을 둘러 보았고 지역화 데이터를 처리하는 방법에 대한 간단한 설명을 찾을 수 없습니다.

질문 : 어떻게 사람들이 일반적으로 여기에 경계 상자를 처리하나요 ...

  • 당신이 tf.sample_distorted_bounding_box 명령 같은 것을 사용하십니까, 그리고 그 기반으로 이미지 크기를 조정?
  • 이미지 자체를 다시 자르거나 자르고 바운딩 상자를 변형 된 비율로 보간합니까? 어떤 경우에는 음의 박스 좌표가 나오지 않습니까?
  • 이미지 당 여러 개체는 어떻게 처리됩니까?

    • 처음부터 하나의 경계 상자를 선택하고 자르면이 자르기가 시작됩니까?

    • 또는 전체 (중앙에서 잘린) 이미지를 먹인 다음 어떻게 든 하나 이상의 상자를 예측하려고합니까?

  • 이 중 어떤 것은 탐지 또는 세분화 (MS-CoCo와 같은) 과제로 일반화되었거나 완전히 다른 것입니까?

뭐든지 감사

답변

0

현지화하는 데 도움이 ... 일반적으로 네트워크가 원하는 개체의 존재를 식별 슬라이딩 윈도우의 교차로로 수행됩니다.

여러 개체에 일반화하면 동일하게 작동합니다.

분할이 더 복잡합니다. 개체가 채워진 픽셀 마스크에서 모델을 학습하고 동일한 크기의 픽셀 마스크를 출력하려고합니다.

+0

파이프 라인에있을 때이 슬라이딩이 발생합니까? 입력 이미지의 다른 작물을 가져 와서 슬라이딩합니까? 아니면 어떻게 든 네트워크 아키텍처에 int 내장? ... – KTF

+0

훈련 후. 각 창에 대해 네트워크가 모든 긍정적 인 창의 교차점을 가지고 있다고 가정하면 테두리가 생깁니다. – bold

+0

긍정적 인 창은 네트워크가 이진 예/아니오만을 예측한다는 것을 의미합니까? – KTF