2014-07-11 1 views
0

이미지의 모든 관련 기능을 유지하면서 이미지를 축소판 이미지로 자르기위한 최첨단 방법을 찾고 있습니다. 이미지는 TV 프로그램 및 영화의 스틸 사진입니다. 그들은 크고 (1000px 이상) 날카 롭고 일반적으로 매우 균형 잡힌 (색조, 채도)입니다. 이것이 실시간으로 발생했는지 여부는 중요하지 않습니다.얼굴 및 기타 기능 감지를 사용하여 자동화 된 축소판 자르기를위한 최신 솔루션

답변

0

이 질문은 "모든 관련 기능"이 의미하는 바에 전적으로 달려 있다는 점에서 상당히 좋지 않습니다.

나는 TV 쇼 또는 영화에서 1) 얼굴, 2) 사람, 3) 로고 또는 4) 인간이 흥미롭고 두드러진 것을 발견 할 수있는 모든 요소를 ​​가정합니다.

1) 얼굴. OpenCV에 내장 된 것과 같은 얼굴 검출기를 실행할 수 있습니다. 이것은 비올라/존스 하얼 (Viola/Jones Haar) 캐스케이드 기법을 사용하여 이미지에서 얼굴을 찾고 그 얼굴 주위에 상자 집합을 반환합니다. 그런 다음 해당 상자 만 포함 된 영역으로 프레임을자를 수 있습니다. 그것은 최첨단 기술이 아니지만 예를 들어 사용 된 가장 일반적인 얼굴 검출기입니다. 얼굴 찾기 용 카메라 하드웨어 등.

2) 사람들. 사람들을 감지하려면 표준 보행자 감지기 (예 : Dalal 및 Triggs HOG/SVM 방법, CVPR 2005 문서 참조)를 사용할 수 있습니다. 이것은 최신 기술은 아니지만 합리적 일을하고 웹에서 사용할 수있는 그런 종류의 프레임 워크에서 파생 된 많은 작업과 구현이 있습니다. INRIA 보행자 감지기를 검색하십시오.

대안은 이미지의 사람들을위한 합리적인 예측자인 Oxford VGG의 상체/몸통 감지기를 사용하는 것이고, 나는 Buffy the Vampire slayer TV 쇼를 믿는 훈련을 받았습니다.

3) 로고. SVF와 함께 SIFT 검출기와 Bag of Visual Words 프레임 워크를 사용하여 이러한 것을 확실하게 찾으십시오. Andrew Zisserman의 그룹 (Oxford)이나 Gabriela Csurka의 그룹 (XRCE Grenoble)의 다양한 논문을 Google에 전송할 수 있습니다. "Video Google"등을 통해 이러한 방법에 대해 더 자세히 알아보고 기능 감지기가 내장 된 OpenCV에서 구현하는 것은 매우 간단합니다. A Bag of Visual Words 접근 방식은 여기에서 충분하지만 피셔 벡터 기반 접근 방식은 아마도 예술 수준에 더 가깝다고 간주 될 것입니다.

4) "무엇이든 돌출". 수십 년 동안 컴퓨터 비전 연구원은 일반적인 이미지에 일반적인 "무언가 재미있는"탐지기를 설계하려고 시도했지만 제 생각으로 아무도 여러분이 진술 한 컨텍스트 (TV 쇼 또는 영화)에 사용할 수있는 솔루션에 접근하지 않았습니다. 중급 (다시 예술의 상태가 아니지만 www에서 자유롭게 사용할 수있는 코드가있을 가능성이있는) 무언가를 시험해보고 싶다면 Itti Koch 방법을 사용해보십시오.

관련 문제