2

Adaboost 알고리즘에 대한 교육 데이터에 Haar와 같은 기능을 사용하는 경우 데이터 세트를 어떻게 작성합니까? 말 그대로 수천 개의 양성 및 음성 샘플을 찾아야합니까? 이 작업을보다 효율적으로 수행 할 수 있어야합니다 ...기계 학습 - 훈련 단계

저는 matlab (얼굴이 아닌)에서 이미지를 분석하려고하는데 이미지 처리에 비교적 새로운 기술입니다.

+1

'기계 학습'및 '이미지 처리'태그 추가 시도 – Geoff

답변

4

예, 교육을 위해 많은 양수 및 음수 샘플이 필요합니다. 이는 Adaboost에서 특히 그렇습니다. Adaboost는 반복적으로 트레이닝 세트를 리샘플링하여 작동합니다. 얼마나 많은 표본이 충분한 지 말하기 어렵습니다. 그러나 일반적으로, 더 좋을수록, 훈련 세트가 대표적 일 가능성이 높아집니다.

또한 효율성에 대한 귀하의 탐구가 잘못되었습니다. 훈련은 사전에 오프라인으로 진행됩니다. 사람들이 보통 걱정하는 훈련이 끝난 후에 알려지지 않은 인스턴스를 분류하는 것이 효율성입니다.

0

의심 할 여지없이 더 많은 데이터, 더 많은 정보, 더 나은 결과. 가능한 한 더 많은 정보를 포함시켜야합니다. 그러나주의해야 할 한 가지는 양수 세트 대 음수 세트의 비율입니다. 로지스틱 회귀 분석의 경우, 비율은 1 : 5를 넘지 않아야합니다. 결과에 대해서는 잘 모르겠지만, 비율에 따라 확실히 변할 것입니다.

0

예. 우리는 훈련을 위해 많은 긍정적이고 부정적인 샘플이 필요하지만 그 데이터의 수집은 매우 지루합니다. 그러나 그림 대신 비디오를 찍고 ffmpeg를 사용하여 해당 비디오를 그림으로 변환하면 쉽게 만들 수 있습니다. 그것은 훈련 부분을 훨씬 쉽게 만들 것입니다.

0

동등한 양수 및 음수 샘플의 종류가있는 유일한 이유는 편의를 피하는 것입니다. 때로는 높은 정확도를 얻을 수도 있지만 한 카테고리를 완전히 분류하지 못합니다. 이러한 방법을 평가하려면 정밀도/리콜이 정확도보다 더 유용합니다.

관련 문제