2012-12-06 4 views
0

gob이라는 데이터 세트를 R에로드하고 편리한 summary 함수를 사용해 보았습니다. 3 분위수는 평균보다 적습니다. 어떻게 이럴 수있어? 내 데이터의 크기 또는 그와 비슷한 것입니까?왜 제 3 사분면이 데이터의 평균보다 작습니까?

이미 숫자 매개 변수 (예 : 10)에 큰 값을 전달하려고 시도했지만 문제가 해결되지 않았습니다.

> summary(gob, digits=10) 

    customer_id   100101.D   100199.D   100201.D   
Min. : 1083 Min. :0.0000000 Min. :0.0000000 Min. :0.0000000 
1st Qu.: 965928 1st Qu.:0.0000000 1st Qu.:0.0000000 1st Qu.:0.0000000 
Median :2448738 Median :0.0000000 Median :0.0000000 Median :0.0000000 
Mean :2660101 Mean :0.0010027 Mean :0.0013348 Mean :0.0000878 
3rd Qu.:4133368 3rd Qu.:0.0000000 3rd Qu.:0.0000000 3rd Qu.:0.0000000 
Max. :6538193 Max. :1.0000000 Max. :1.0000000 Max. :0.7520278 

고브 $ 100201.D에 대한 평균은 0.0000878이지만 3 Qu. = 0

+0

주 (HTTP : // EN. wikipedia.org/wiki/Quartile)는 값으로가 아닌 숫자로 표본을 나눕니다. – Xymostech

+1

당신의 질문에 좀 더 기술적 인 제목을 사용하는 것이 좋습니다. "* R에서 summary()를 사용할 때 제 3 사분원이 때로는 왜 평균보다 작습니까?"(이 시점에서 이것은 더 많은 질문이됩니다. [Cross Validated] (http://stats.stackexchange.com/)). 그래서 실제로 버그 리포트를 게시 할 곳이 아닙니다. 문제를 게시하고, 실제로 버그 일 경우 잘만되면 눈치 채고 고칠 것입니다. 예제는 http://stackoverflow.com/a/10588698/1270695를 참조하십시오. 이 질문에는 버그에 대한 언급이 없지만 패키지 관리자가이를 확인하고 그것이 속한 버그 보고서를 제출했습니다. – A5C1D2H2I1M1N2O1R2T1

+0

이것은 답변이 표시하는 'R'질문이 아닙니다. –

답변

11

버그가 아니며 데이터에 0 값이 많이 포함되어 있습니다. 내가 열두 0 하나의 x를 1로 할 경우 예를 들어, 나는 3 분위 값의 분포를 확인하기 위해 열을 테이블()를 사용하는

x<-c(0,0,0,0,0,0,0,0,0,0,0,0,1) 
summary(x) 

    Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.00000 0.00000 0.00000 0.07692 0.00000 1.00000 

시도를 의미보다 작다는 결과를 얻을

table(x) 
x 
0 1 
12 1 
+0

물론 그게 다야! –

+6

이제 Didzis의 답을 수락 할 필요가 있습니다. 그건 그렇고, 이것은 대부분의 사람들이 평균 이상의 다리 수를 가지고 있다고 말하는 논리와 유사합니다 ... – Spacedman

3

세 번째 분위수는 평균보다 낮을 수 있습니다. 최고 값의 75 %는 아니지만 최저값에서 최고 값까지 주문한 경우 벡터의 75 % 값입니다. 즉 : 최고에 가장 낮은, 그 벡터의 길이의 75 %에 가장 가까운 값을 선택합니다에서

Vector <- c(0,0,0,0,0,0,0,1) 
mean(Vector) 
[1] 0.125 
quantile(Vector, 0.75) 
[1] 0 

는 R 주문을, 모든 데이터를 제 3 분위수를 찾으려면. 그래서 기본적으로 :

3rdQuar = Vector[round(length(Vector)*0.75)] 

(이 두 정수 사이에 토지 경우, R 실제로이 평균 않습니다 그러나 이것은 기본적인 생각이다.) [분위 즉

+0

'R'뿐만 아니라 모든 quantile 소프트웨어가 명백하게 설명하기 위해 용어의 정의와 마찬가지로이 작업을 수행합니다. –

관련 문제