입력 크기는 네트워크의 입력 레이어에만 영향을 미칩니다. 그러나 그것이 틀린 경우에 저를 정정하십시오, 나는 아직도 전체 깊은 학습 패러다임에 아주 새롭다.
Tensorflow 개체 검색 API의 세 가지 모델을 사용했습니다. 더 빠른 R-CNN과 R-FCN, Resnet101 Feature 추출기 및 Inception V2가있는 SSD 모델 모두. SSD 모델은 이미지를 고정 된 M x M
크기로 재구성합니다. 이는 Huang 등의 "최신 컨볼 루션 오브젝트 검출기의 속도/정확도 절충점"논문에서도 언급되었지만 빠른 R-CNN 및 R-FCN 모델은 M 픽셀보다 짧은 가장자리. 이 크기 조정은 모델의 전처리 단계에 있습니다.
또 다른 방법은 종횡비를 유지하고 이미지의 고정 크기를 자르고 다른 위치 (가운데, 왼쪽 위, 오른쪽 위, 왼쪽 아래, 오른쪽 아래 등)에서자를 수 있습니다. 모델을 강건하게 만들 수 있습니다. 더 정교한 방법으로 이미지를 여러 눈금으로 크기 조정하고 자르기를 수행하고 SPP와 같은 동일한 기능 차원을 만들기 위해 나중에 적응 형 풀링 크기를 갖는 길쌈 계층에서 다른 종횡비를 사용합니다 (자세한 내용은 He 등의 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 참조). 구성 프로토 타입의 keep_aspect_ratio_resizer
에 의해 수행되는 작업.
이렇게하면 내 이해를위한 아키텍처가 다른 이미지 크기로 복원됩니다. 숨겨진 레이어의 내부 가중치는 이미지의 입력 크기에 영향을받지 않습니다.