2012-12-15 7 views
1

세트 목록과 각 항목에 대한 몇 가지 기본 통계 (항목 수, 최소, 최대, 평균, 표준 편차)가 있습니다. 나는 모든 세트를 결합하여 동일한 통계를 계산하고 싶습니다. 총 개수, 최소값 및 평균값을 계산하는 것은 쉽지만 총 표준 편차를 계산하는 방법은 확실하지 않습니다.편차/요소 목록의 표준 편차 찾기

데이터는 다음과 같습니다

Count  Max  Min  Mean  Stddev 
1,027,671 781  68  57.8  32.79 
    839,473 552  54  61.3  48.53 
3,012,102 890  41  64.9  41.92 

함께 세트의 모든 통계를 생성 :

4,879,246 890  41  62.8  ??? 
+0

각 세트는 별도의 기계에서 계산됩니다. 모든 데이터를 네트워크를 통해 보내야하는데, 이는 내 애플리케이션에서 허용되지 않습니다. – charliehorse55

+1

카운트/평균/표준 편차를 계산하기 위해서는 요약 정보의 3 카운트, 합계 및 합계 제곱을 보내면됩니다. 제곱의 합은 추가를 통해 결합되기 때문에 표준 dev보다 계산적으로 친숙한 통계입니다. 그들은 총 수와 합계와 표준 편차를 안다면, 총 수와 합계를 얻을 수 있고, 그 반대도 마찬가지입니다. –

+0

나는 이것을 사용할 것이다. 원하는 경우 답변으로 제출할 수 있습니다. – charliehorse55

답변

2

나는 이미 표준 편차가 계산 된 일부 데이터를 소비하는 것이 아니라 배포를 유지 관리하는 코드를 작성한다고 가정합니다. 표준 dev는 컴퓨터에서 유지 관리 할 수있는 자연스러운 매개 변수는 아닙니다. 대신 항목 수, 합계 및 항목 제곱의 합계를 유지해야합니다. 그런 다음 원시 정보 3 개와 평균 및 표준 편차를 쉽게 계산할 수 있습니다. 여기이 코드에서이 전략을 사용합니다. 추가 조작은 두 개의 분배를 병합하는 것을 지원합니다. 구현이 얼마나 간단한 지 주목하십시오. http://github.com/rrenaud/dominionstats/blob/master/stats.py#L17.

0

나는 당신이 가지고있는 데이터에서 정확히이 일을 계산하는 것은 불가능하다고 생각합니다. 문제는 표준 편차가 결합 된 데이터 집합의 평균에 따라 다르다는 것인데, 이는 개별 수단과 반드시 ​​동일하지는 않으며 또한 그 평균으로부터의 각 점까지의 거리에 따라 달라질 수 있습니다 (그러나 근사치는 아님) 접속하다.

+0

이 잘못되었습니다. 당신은 합계 데이터의 평균을 계산할 수 있습니다. 개별 평균의 가중치 합계를 사용하거나 개별 분포의 합계와 수를 합계와 평균으로 구한 다음 합계 수와 합계를 계산하여 더 명확하게 계산할 수 있습니다 결합 된 평균으로 std dev에 대해서도 비슷한 주장이 있지만 더 많은 대수가 필요합니다. –

+0

@rrenaud : 새로운 의미를 얻는 것이 쉽다는 것을 알고 있으며 표준에 대한 정확한 해결책을보고 싶습니다. 그가 이용할 수있는 정보와의 편차. –