평균 및 표준 편차는 얻을 수 있지만 중간 값은 얻을 수 없습니다. 단지 표준 편차이다 (n(0)
첫 번째 데이터 세트의 실행의 개수
new_n = (n(0) + n(1) + ...)
new_mean = (mean(0)*n(0) + mean(1)*n(1) + ...)/new_n
new_var = ((var(0)+mean(0)**2)*n(0) + (var(1)+mean(1)**2)*n(1) + ...)/new_n - new_mean**2
, n(1)
번째의 런 수, 등, mean
는 평균값이며, var
가 분산이며 제곱). n**2
은 "n 제곱"을 의미합니다.
결합 된 분산을 얻는 것은 데이터 세트의 분산이 데이터 세트의 제곱 평균에서 데이터 세트의 평균 제곱을 뺀 것과 같다는 사실에 달려 있습니다. 통계 언어로,
Var(X) = E(X^2) - E(X)^2
var(n)+mean(n)**2
용어
위의 우리에게 우리가 다음 다른 데이터 세트와 결합하고 원하는 결과를 얻을 수
E(X^2)
부분을 제공합니다.
는 중간 값의 측면에서
:
당신이, 당신이 결합 된 평균 두 중간 값 사이의 어딘가에 놓여 있음을 특정 (또는 그 중 하나 동일) 할 수 있습니다 정확히 두 개의 데이터 세트를 결합하는 경우,하지만 거의 없다 더 말할 수 있습니다. 평균값을 취하는 것은 중간 값이 어떤 데이터 요소와 동일하지 않도록하려는 경우가 아니라면 OK 여야합니다.
한 번에 많은 데이터 세트를 결합하려는 경우 중앙값의 중간 값을 취하거나 평균값을 취할 수 있습니다. 서로 다른 데이터 세트간에 상당한 체계적 차이가있을 수있는 경우 중앙값을 취하면 외재 값의 영향이 줄어들 기 때문에 평균을 취하는 것이 좋습니다. 그러나 달리기 사이에 체계적인 차이가 있다면 무시하는 것이 좋지 않을 것입니다.
좋은 지적이지만 약간 확장 할 수 있습니까? – Artelius
예. 원래 코드의 문제점은 편차가 평균에 비해 작 으면 큰 숫자에서 많은 수를 빼서 상대적으로 작은 수를 얻음으로써 부동 소수점 정밀도를 잃을 수 있다는 것입니다. 새로운 코드는이 문제를 피합니다. E (X^2)로 변환하지 않고 전체 분산에 모든 기여도를 합산하고 샘플 크기에 따라 적절하게 가중치를 부여합니다. 당신의 대답과 논평은 – comingstorm
+1입니다. 둘 다 자리를 잡고 아주 잘 쓰여 있습니다. – duffymo