2017-01-18 1 views
0

먼저 파이썬 세계에 대해 내가 통계에 대해 새롭다고 말하게하십시오. 따라서 제 질문이 사소하거나 심지어 부정확 한 경우 사전에 사과드립니다. 나 자신을 올바르게 표현하기 위해 최선을 다할 것입니다.데이터를 파이썬으로 작성한 다음 주어진 요소의 공유보다 작은 값을 계산하십시오

연속 변수에 대한 경험적 데이터 세트가 있습니다. 다른 분포 유형의 데이터 집합에 맞는 편리한 코드 조각 (Data Fitting - El Nino example)을 발견했으며 최상의 분포 값 (분포 히스토그램과 데이터의 히스토그램 사이의 최소 제곱합 합계)을 반환합니다.

이제 데이터 요소의 60 %보다 작은 값을 계산해야합니다.

DataSet = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

내가 질문에 대답하려면 : 무엇을 value의가되는 요소의 60 %가 같거나 큰 즉 나는 데이터 집합 벡터가 있다면?

코드가 반환하는 분포 함수가 정상이 아니기 때문에 표준 편차와 평균의 정의는 실제로 여기에 적용되지 않습니다. 그렇다면 내가 찾는 값을 찾기 위해 '무작위'확률 분포 함수를 어떻게 처리합니까? 어떻게 든 그것을 정상화해야합니까 아니면 중간 및 사 분위수를 사용해야합니까? 또는...?

답변

2

당신은 백분위 수를 계산하는 것처럼 들리 겠지만 비꼬는 듯합니다. 백분위 수는 모집단의 X %가 그 값 아래로 떨어지는 값 컷오프를 제공합니다. 따라서 모집단의 X %보다 작은 값을 찾으려면 (100 % - X %) 백분위 수만 찾으십시오. 귀하의 경우, 40 % 백분위 수를 찾고 보간법을 "높음"으로 설정하여 두 데이터 사이의 값을 얻지 못하게하십시오. 그러나 정확한 절단을 원한다면 그 인수를 무시할 수 있습니다.

내가 계산하는 numpy.percentile을 사용 :

import numpy as np 
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) 
p = np.percentile(a, 40, interpolation="higher") 
p_exact = np.percentile(a, 40) 
print p # prints out 5 
print p_exact # prints out 4.6 
관련 문제