2016-10-07 4 views
0

숫자 변수의 비대칭 및 첨도를 이해하고 데이터의 모양을 이해하려고합니다.왜곡 및 첨도를 보여주는 명확한 그래프를 그립니다.

skewness(data$responsetime) 
[1] 26.56731 

그리고 첨도 :

나는이 같은 비대칭 명령을 먼저 계산

kurtosis(data$responsetime) 
[1] 3723.961 

꼬리가 권리를 이동해야하므로 비대칭은 긍정적이며, 첨도는> = 3.

지금은 왜도 및 줄거리와 첨도를 모두 확인하고 싶습니다. 나는이 같은 것을 시도 :

plot(density(data$responsetime))

그리고 임은 어려운 몇 가지 결론을 얻을 것을 아래처럼 음모를 받고. 임씨는이 그래프를 더 명확하게하려고 노력 중이며, x 크기 또는 다른 것을 조정하는 것과 같지만 임무를 수행 할 명령을 찾지 않습니다. oyu는 그것을 어떻게하는지 안다? 이 같은 히스토그램을 사용

enter image description here

: 나는 또한 어려운 그래프를 얻을 수

HIST (데이터 $ RESPONSETIME, 휴식 = 100)는 이해하기 :

enter image description here

플롯 (data $ responsetime, xlim = c (0, 20000))을 사용하면 다음과 같이 나타납니다.

함께

enter image description here

: 플롯 (밀도 (데이터 $ RESPONSETIME) xlim의 C = (0, 20000))

I는 아래의 그래프를 얻는다. 하지만 난 이해가 안 돼, x 축에서 나는 응답 시간이있다. max (data $ responsetime) 응답 시간의 최대 값은 320000입니다. 따라서 tail이 arround 18000에서 멈추는 방법은 무엇입니까? HIST() 함수에 관한

enter image description here

+0

break 인수를 사용하여 히스토그램 함수를 사용해보십시오. 참조 : hist –

+0

팁 주셔서 감사합니다. 그러나 이상한 그래프가 나타납니다. – Azz

+0

'plot (밀도 (data $ responsetime), xlim = c (0, 20000))'또는'plot (밀도 (data $ responsetime), log = "x")'? (제 표정이 나쁠 수도 있습니다). – cuttlefish44

답변

1

사용 qqnorm - 왜도 및 첨도 매우 명확를 모두 보여줍니다.

번호 :

qqnorm (데이터 $ RESPONSETIME)

qqline (데이터 $ RESPONSETIME)

오른쪽 일반적 스큐 볼록 모양을 나타내고, 통상적으로 왜곡 오목 떠났다. 초과 첨도가 < 인 경우 일반적으로 꼬리는 qqline이 예측하는 것보다 수평 중간 선에 더 가깝습니다. 과도한 첨도가> 0 인 경우 일반적으로 꼬리 중 하나 또는 둘 모두 qqline이 예측하는 것보다 더 극단적입니다 (수평 중간 선에서 더 멀리 떨어져 있음).

데이터의 qq-plot에 오목한 모양이 나타나야하며 오른쪽 꼬리는 qqline보다 훨씬 위에 있어야합니다. 이것은 당신의 분포가 오른쪽 꼬리의 정규 분포에 의해 예측되는 것을 초과하여 이상치를 생성한다는 것을 나타냅니다.

첨도는 분포의 피크가 아니라 특이점을 측정합니다. 이것은 첨도 (kurtosis) 통계를 히스토그램에 연관시키는 데있어 어떤 사람들에게는 혼란의 원인 일 수 있습니다.

왜 첨도가 피크가 아닌 아웃 라이어를 측정하는지 이해하는 논리는 간단합니다. 큰 | Z | 값은 아웃 라이어를 나타냅니다. 첨도는 Z^4 값의 평균입니다. 그래서 | Z | - 값이 0에 가까울수록 (첨두가있는 곳)는 첨도 통계에 아무런 영향을 미치지 않으므로 첨도 통계는 첨두에 대해서는 비공식적입니다. 피크가 뾰족하고 높은 첨도를 가질 수 있으며 피크가 평탄 할 때 높은 첨도를 가질 수 있습니다. 그것은 모두 아웃 라이어의 처분에 달려 있습니다.

+0

[Markdown 또는 HTML을 사용하여 내 게시물의 서식을 지정하려면 어떻게합니까?] (http://stackoverflow.com/help/formatting) – buhtz

0

: 내가 찾은

hist(data$responsetime, breaks='FD') 

"휴식을 = 'FD'"히스토그램에서 일반적으로 반환 충분한 브레이크 포인트는이 문제를 해결합니다. 또한 그래프에서 보면 매우 긴 꼬리가있는 것처럼 보입니다.

사이드 바 : 당신의 데이터는 당신이 그들과 함께 작업을하기 전에 데이터를 변환 고려할 수 기울어 경우. qqline과 함께

관련 문제