2013-01-19 3 views
3

나는 로지스틱 회귀를 며칠 동안 배웠다. 그리고 나는 로지스틱 회귀의 데이터 집합의 레이블이 1 또는 0이어야한다고 생각한다. 맞습니까?로지스틱 회귀 데이터 세트 라벨의 의미는 무엇입니까?

하지만 난 libSVM 라이브러리의 regression dataset, 내가 값은 라벨 번호를 계속 참조 (예를 들면. 1.0086,1.0089 ...), 내가 그리워 않은 뭔가를 조회 할 때?

회귀 문제로 libSVM 라이브러리를 사용할 수 있습니다.

감사합니다.

답변

0

타사 라이브러리를 사용하고 있습니까? 아니면 직접 프로그래밍하고 있습니까? 일반적으로 레이블은 근거 진리로 사용되므로 접근법이 얼마나 효과적인지 알 수 있습니다.

예를 들어 알 고가 특정 인스턴스에 -1이 출력 될지 예측하려고 시도하는 경우 Ground truth 레이블이 +1되어 해당 특정 인스턴스를 성공적으로 분류하지 못했음을 의미합니다.

2

로지스틱 회귀는 이름과 달리 분류 알고리즘이며 데이터 포인트에서 조건부 클래스 확률을 출력합니다. 따라서 훈련 세트 라벨은 0 또는 1이어야합니다. 언급 한 데이터 세트의 경우 로지스틱 회귀는 적절한 알고리즘이 아닙니다.

SVM은 분류 알고리즘이며 입력 레이블 -1 또는 1을 사용합니다. 확률 적 알고리즘이 아니며 클래스 확률을 출력하지 않습니다. 그것은 또한 회귀에 적응할 수 있습니다.

+0

데이터 집합을 회귀에 사용할 수 없다는 뜻입니까? 하지만 회귀라는 유형은 여기에서 확인하십시오. http : //www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ – MrROY

+0

회귀 분석을 위해 데이터 세트를 사용할 수 있습니다. 그것을위한 것입니다. 하지만 당신은 그것에 물류 회귀를 적용 할 수 없습니다. –

0

"회귀"는 일반적인 용어입니다. 누군가가 회귀 분석을 수행한다고해서 그들이 어떤 알고리즘을 사용할 것인지 또는 모든 데이터 세트의 성격을 말할 필요는 없다. 모든 결과는 단일 결과 값 (조건부 확률에 대한 모델)을 예측하는 데 사용하려는 기능이 포함 된 샘플 세트를 보유하고 있다는 사실을 알려줍니다.

로지스틱 회귀 분석과 선형 회귀 분석의 주요 차이점 중 하나는 일반적으로 전자는 일반적으로 범주 형 이진 분류 샘플 세트에 대해 학습된다는 점입니다. 후자는 실제 표식 (ℝ) 샘플 세트에 대해 교육을받습니다.

레이블이 실제 값일 때마다 선형 회귀 또는 이와 비슷한 값을 사용하거나, 실제 값이있는 레이블을 문안 레이블 (예 : 임계 값 또는 저장소)로 변환하려는 경우 사실 로지스틱 회귀을 사용하십시오. 이러한 문제 설정을 다른 설정으로 변환하려고하면 결과의 품질과 해석에 큰 차이가있을 수 있습니다.

도 참조하십시오. Regression Analysis.