2016-10-17 6 views
2

신용 위험에 대한 분석에 LDe를 포함시키기 위해 HMeasure 패키지를 사용합니다. 나는 11000의 obs가 있고 분석을 개발하기 위하여 나이와 소득을 선택했다. LDA의 R 결과를 해석하는 방법을 정확히 알지 못합니다. 따라서 신용 위험에 따라 최상의 변수를 선택했는지는 알 수 없습니다. 코드 아래에 표시합니다.LDA 해석

lda(default ~ ETA, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA 
0 34.80251 
1 37.81549 

Coefficients of linear discriminants: 
         LD1 
ETA 0.1833161 

lda(default~ ETA + Stipendio,  train) 

Call: 
lda(default ~ ETA + Stipendio, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA Stipendio 
0 34.80251  1535.531 
1 37.81549  1675.841 

Coefficients of linear discriminants: 
                 LD1 
ETA       0.148374799 
Stipendio 0.001445174 

lda(default~ ETA, train) 
ldaP <- predict(lda, data= test) 

어디 ETA = AGE 및 STIPENDIO = 소득

감사합니다 많이!

답변

1

LDA는 각 클래스의 평균과 경계 (또는 분리)를 만들기 위해 각 클래스의 평균과 분산을 사용합니다. 이 경계는 계수로 구분됩니다.

두 모델이 있습니다. 하나는 변수 ETA이고 다른 하나는 ETAStipendio에 따라 달라집니다.

가장 먼저 볼 수있는 것은 Prior probabilities of groups입니다. 이 확률은 훈련 데이터에 이미 존재하는 확률입니다. 나는. 교육 데이터의 47.17 %는 0으로 평가 된 신용 위험에 해당하고 교육 데이터의 52.82 %는 1로 평가 된 신용 위험에 해당합니다 (0은 "위험하지 않음"을 의미하고 1은 "위험한"을 의미 함). 이 확률은 두 모델에서 동일합니다.

두 번째로 볼 수있는 것은 각 클래스 내의 각 예측 자의 평균 인 그룹 평균입니다. 이 값은 변수 ETA이 위험하지 않은 크레딧 (34.8025)보다 위험한 크레딧 (37.8154)에 약간 큰 영향을 줄 수 있음을 나타냅니다. 이 상황은 두 번째 모델에서 변수 Stipendio에서도 발생합니다.

첫 번째 모델의 ETA에 대한 계산 된 계수는 0.1833161입니다. 이것은 두 가지 클래스의 경계가 다음 식에 의해 규정된다는 것을 의미 다음 line 의해

y = 0.1833161 * ETA 

이 표현 될 수있다 (x 변수 ETA를 나타낸다). 신용 위험은 0과 1 중 어느 쪽인지에 따라 예측됩니다.

y = 0.148374799 * ETA + 0.001445174 * Stipendio 

당신이 볼 수 있듯이이,이 공식은 plane을 나타냅니다

enter image description here

두 번째 모델은 두 개의 종속 변수, ETAStipendio, 그래서 클래스 사이의 경계는이 공식에 의해 구분됩니다 포함 . (x1ETA이고, x2Stipendio을 나타낸다). 이전 모델에서와 마찬가지로이 비행기는 위험한 신용과 위험하지 않은 신용의 차이를 나타냅니다.이 모델에서는 제

enter image description here

ETA 계수는 Stipendio 계수는 이전 변수는 변수보다 나중에 신용 위험도에 큰 영향을 미치는 것을 암시하는 것이 훨씬 더 크다.

이 정보가 도움이되기를 바랍니다.