2016-06-10 4 views
1

Sklearn 기능 선택 모듈에서 기능 선택을위한 F_regression 기술을 발견했습니다. 나는 그것이 사용하는 원리를 이해할 수 없었다. 설명은 다음과 같습니다 -

단 변량 선형 회귀 테스트.
많은 회귀 변수에 대해 단일 회귀 변수의 효과를 순차적으로 테스트하는 빠른 선형 모델입니다. 이것은 3 단계로 이루어집니다.F_Regression from sklearn.feature_selection

    1. 회귀 변수와 데이터는 일정한 회귀 변수와 직교합니다.
    2. 데이터와 회귀 분석기 간의 교차 상관이 계산됩니다.
    3. F 점수로 변환 된 다음 p 값으로 변환됩니다.

나는 이것을 이해할 수 없다. 누군가 이것을 평신도 용어로 설명 할 수 있겠는가?

답변

2

문서의 언어는 약간 둔합니다. 나는 '데이터'가 응답을 의미한다고 생각한다. 첫째, 선택된 회귀 분석기와 응답은 나머지 회귀 분석기에 대해 직교 화된다. 이것은 존재할 수있는 다중 공선 성을 감소시킵니다. 그런 다음, 선택된 회귀 분석기와 반응 간의 상관 관계가 계산됩니다. 단 변수 설정에서 상관 계수는 R^2의 제곱근이며 모델의 전체적인 중요성을 테스트하는 데 사용되는 F- 통계로 작성할 수 있습니다 (이 또한 https://stats.stackexchange.com/questions/56881/whats-the-relationship-between-r2-and-f-test 참조). 다음으로 상관 관계가 F- 통계로 변환되고 해당 p- 값이 계산되며 F와 p가 반환됩니다. 하나 이상의 회귀 분석기가있는 경우, 이는 모든 회귀 분석기에 대해 한 번에 하나씩 수행됩니다.