회귀를 통해 분류에 접근하지 않는 이유는 무엇입니까?

기계 학습 자료는 회귀를 통해 분류 문제에 접근하는 것은 나쁜 생각이라고 말했습니다. 그러나 데이터를 맞추기 위해 지속적인 회귀를 수행하고 연속 예측을 절단하여 개별 분류를 생성하는 것이 항상 가능하다고 생각합니다. 왜 그렇게 나쁜 생각입니까?회귀를 통해 분류에 접근하지 않는 이유는 무엇입니까?

출처

2012-02-06 Strin

http://stats.stackexchange.com 또는 http://metaoptimize.com/qa에서 질문하는 것이 좋습니다. –

분류를 수행하는 경우 잘못된 분류와 관련된 항목을 최적화하려고합니다. 올바른 수업을 예측하는 데만 관심이 있습니다. 회귀 분석을 수행 할 때 예측과 실제 값 사이의 왜곡 측정을 최소화해야합니다. 평균 자승 오차는 회귀에 대한 일반적인 패널티 함수입니다.

결국 분류 작업을 수행하는 회귀 변수를 최적화하는 것을 상상해보십시오. 있음은 분명히 클래스 1이지만 레이블이 매우 큰 예제입니다. 이 예제의 손실을 최소화하려면이 예제의 예측을 극대화하기 위해 가중치를 많이 옮겨야합니다. 그러나 분류 경계가 막 움직이면서 분류 정확도가 떨어졌습니다. 당신이 필요하지 않을 때 과다 보상했습니다.

예를 잘못 예측 한 방법에 따라 가중치를 이동하는 양으로이 그래프를 볼 수 있습니다. 손실의 대부분의 기능

Loss function plot

여기 오 분류 손실에 upperbounds 있습니다. 잘못된 분류에서 상한선을 최적화하는 모델은 분류를 잘 수행합니다. 회귀 분석을 분류에 사용하는 것은 제곱 오류 손실을 선택하는 것과 유사하며 근본적으로 최적화하려는 것을 잘못 표현한 것입니다. 분류가 점점 더 자신감을 가지기 시작하고 우수 분류 손실 함수가 모두 0이거나 거기에있는 경우에도 제곱 오류에 대한 손실에서 그래프의 오른쪽으로의 상향 이동에 해당합니다.

이미지는 우수 Elements of Statistical Learning Theory에서 촬영 한 것입니다.

출처

2012-02-06 15:59:33

+1, 분류의 최적화 기준으로 평균 제곱 오류 vs. 분류 오류에 대한 설명은 http://hunch.net/?p=211을 참조하십시오. –

회귀를 통해 분류에 접근하지 않는 이유는 무엇입니까?

답변

관련 문제