2012-02-06 5 views
3

기계 학습 자료는 회귀를 통해 분류 문제에 접근하는 것은 나쁜 생각이라고 말했습니다. 그러나 데이터를 맞추기 위해 지속적인 회귀를 수행하고 연속 예측을 절단하여 개별 분류를 생성하는 것이 항상 가능하다고 생각합니다. 왜 그렇게 나쁜 생각입니까?회귀를 통해 분류에 접근하지 않는 이유는 무엇입니까?

+1

http://stats.stackexchange.com 또는 http://metaoptimize.com/qa에서 질문하는 것이 좋습니다. –

답변

10

분류를 수행하는 경우 잘못된 분류와 관련된 항목을 최적화하려고합니다. 올바른 수업을 예측하는 데만 관심이 있습니다. 회귀 분석을 수행 할 때 예측과 실제 값 사이의 왜곡 측정을 최소화해야합니다. 평균 자승 오차는 회귀에 대한 일반적인 패널티 함수입니다.

결국 분류 작업을 수행하는 회귀 변수를 최적화하는 것을 상상해보십시오. 있음은 분명히 클래스 1이지만 레이블이 매우 큰 예제입니다. 이 예제의 손실을 최소화하려면이 예제의 예측을 극대화하기 위해 가중치를 많이 옮겨야합니다. 그러나 분류 경계가 막 움직이면서 분류 정확도가 떨어졌습니다. 당신이 필요하지 않을 때 과다 보상했습니다.

예를 잘못 예측 한 방법에 따라 가중치를 이동하는 양으로이 그래프를 볼 수 있습니다. 손실의 대부분의 기능

Loss function plot

여기 오 분류 손실에 upperbounds 있습니다. 잘못된 분류에서 상한선을 최적화하는 모델은 분류를 잘 수행합니다. 회귀 분석을 분류에 사용하는 것은 제곱 오류 손실을 선택하는 것과 유사하며 근본적으로 최적화하려는 것을 잘못 표현한 것입니다. 분류가 점점 더 자신감을 가지기 시작하고 우수 분류 손실 함수가 모두 0이거나 거기에있는 경우에도 제곱 오류에 대한 손실에서 그래프의 오른쪽으로의 상향 이동에 해당합니다.

이미지는 우수 Elements of Statistical Learning Theory에서 촬영 한 것입니다.

+0

+1, 분류의 최적화 기준으로 평균 제곱 오류 vs. 분류 오류에 대한 설명은 http://hunch.net/?p=211을 참조하십시오. –

관련 문제