2017-03-02 3 views
0

원래의 변수, 그래서 난이 5 개의 변수, 실제로는 4 개의 변수가 무시됩니다 ('Survived').서신 사이 PCA 주요 구성 요소와 지금 난 그냥 숫자 값을 가지고있는 열을 복용하고 NaN의 값을 떨어 뜨리고있어 들어 kaggle의 타이타닉 <a href="https://www.kaggle.com/c/titanic" rel="nofollow noreferrer">dataset</a></p> <p>에 PCA를 적용 할거야

enter image description here

내가 PCA 사용하여 다섯 개 가지 구성 요소를했다 만약 내가이하는 DataFrame 안양에로드 한 :

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05] 

내가 분산 93 %가 첫 번째 구성 요소에서 오는 것을 얻었다. 원본 변수에서이 동일한 값을 얻으려면 어떻게해야합니까? E.G. 나이 - 분산의 0.3보다 많음 요금 -> 0.6

이제는 각 주 변수의 백분율을 어느 비율로 얻을 수 있습니까?

답변

1

PCA의 각 구성 요소는 모든 원래 변수의 선형 조합입니다. pca_model.components_을 사용하여 서로 다른 PCA 구성 요소에서 각 원래 변수의 역할을 관찰 할 수 있습니다.

관련 문제