내가 전에 요청을받은 것 확실 해요,하지만 난 파이썬에 sklearn를 사용하여 로지스틱 회귀를 실행sklearn 로지스틱 회귀 - 중요한 기능
, 나는에 내 데이터 집합을 변환 할 수있어 답을 찾을 수 있어요 변환 방법을 사용하는 가장 중요한 기능
classf = linear_model.LogisticRegression()
func = classf.fit(Xtrain, ytrain)
reduced_train = func.transform(Xtrain)
어떤 기능이 가장 중요하다고 생각하는지 어떻게 알 수 있습니까? 더 일반적으로 데이터 집합의 각 기능의 p- 값을 어떻게 계산합니까?
coefs_ 크기는 기능의 중요성에 대한 척도가 아닙니다. 숫자를 어떻게 봐야 할까? 감사합니다 – mel
@mel : 소스 코드를 보면'LogisticRegression.transform'이 실제로'coef_'를 사용하여 기능의 중요성을 평가하고 있음을 알 수 있습니다. 더 높은 절대 값을 갖는 계수를 더 중요하게 생각합니다. 관련 코드는 [여기] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/feature_selection/from_model.py)입니다. "중요성"에 대한 다른 정의를 원한다면 그 내용을 설명해야합니다. – BrenBarn
실제로 np.abs (coef_)는 기능 중요성을 정량화하는 데있어 끔찍한 시도입니다. 즉, 모델이하지 않는 한 다 변수 설정 (즉, 변수가 공동으로 예측을 수행함)에서 실제로 의미가없는 개념입니다. 변수 선택, 예. 드문 드문. 모델이 희박성을 조장한다면, 당신은 가중치가 0 인 변수를 폐기 할 수 있습니다. 그러나 엄격히 말하자면 기술적으로 모든 것을 할 수 있습니다.일부 다른 모델은'feature_importance'를 노출합니다. 모델에 따라이 기능이 데이터를 얼마나 잘 설명 하는지를 나타내는 단 변량입니다. – eickenberg