2012-08-15 2 views
0

몇 가지 통계 데이터가 있습니다. 일부 데이터는 다음과 같이 대다수의 데이터 세트에 매우 흩어져 있습니다. 데이터 세트에서 흩어져있는 데이터의 영향을 최소화하는 것입니다. 필자의 경우 흩어져있는 데이터의 영향을 최소화 한 데이터 세트의 평균을 계산하려고합니다.통계 데이터 분석에서 분산 데이터 세트

아래 그림에 도시 된 바와 같이
My data set is as like this: 
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42. 

: I는 다른 데이터 분포되지 46.3하지만 가까운 평균값 필요 One data is scattered as shown below(say)

. 사실, 평균 계산에서 89.23 & 328.42의 효과를 최소화하고 싶습니다. 미리 감사드립니다.

+0

http://math.stackexchange.com 또는 http://stats.stackexchange.com에서 질문하십시오. 당신의 질문은 프로그래밍과 관련이 없으므로 아마 다른 사이트에서 더 빠른 응답을 얻을 것입니다. – mathematician1975

+0

이미 많은 시간 검색되었습니다. 그러나 적절한 해결책을 찾지 못했습니다. 저는 프로젝트, 통계 데이터 분석에서 일하고 있습니다. 지난 몇 달 동안 내가 겪고있는 문제입니다. 덕분에 어쨌든 @ mathematician1975 – ln2khanal

+0

@ mathematician1975 언급 된 프로그래밍 문제에 대한이 사이트는 특별히 언급했다. 그러나 이것은 또한 수학, 통계 및 프로그래밍 측면에 관한 좋은 개념적 질문이라고 생각합니다. 일부 괴짜가 매우 지적인 답을 줄 수 있기를 바랍니다. :) –

답변

2

평균을 원하지 않을 수도 있습니다. 여기서 문제는 데이터에 대해 가정 한 배포가 실제 데이터와 다르다는 것입니다. 이 데이터에 정규 분포를 맞추려고하면 나쁜 결과를 가져옵니다. 당신은이 데이터에 cauchy와 같은 무거운 꼬리 분포를 넣으려고 할 수 있습니다. 정규 분포를 사용하려면 비표준 샘플을 필터링해야합니다. 표준 편차가 무엇인지 알아야한다고 생각되면 위의 표본에서 모든 것을 제거하여 평균으로부터 3 표준 편차를 벗어날 수 있습니다 (3은 표본 크기에 따라 달라질 수 있음). 이 프로세스는 표준 편차와 관련하여 이상 치의 크기에 만족할 때까지 비정상 샘플을 제거하기 위해 재귀 적으로 수행 할 수 있습니다.

+0

나는 그 데이터를 필터링 할 수 없다. 그 주요한 문제는 여기에있다. 앞으로는 각 샘플 데이터가 모집단으로 푸시되므로 현재 이상 치가 이상 치가 될 수 없습니다. 어쨌든 답장을 보내 주셔서 감사합니다. – ln2khanal

+0

스트리밍 데이터가있는 정상 모델에서 문제가 해결된다고 가정합니다. 중요한 통계 표본을 얻은 후에 필터링을 시작할 수 있습니다 ... 100 점 ... 핵심 표본이라고 부릅니다. 100 점을 얻은 후 위의 절차를 코어에서 수행하십시오. 그런 다음 추가 데이터 포인트를 모니터링하고 새 포인트로 코어를 업데이트합니다. 코어 배포를 코어에 맞지 않는 새로운 데이터를 방지하십시오.이렇게하면 코어의 통계 특성이 느리게 변경 될 수도 있습니다. – fodon

+0

좋아요! 우리는 로그 파일 클러스터링 프로젝트에서 일하고 있습니다. 로그 메시지는 응용 프로그램 개발자에 따라 깨진 영어로 작성됩니다. 의미있는 단어는 기존 영어 사전 라이브러리를 처리 할 때 이상 치로 알려져있을 수 있습니다. 그래서, 우리가 한 일은 다가오는 메시지들을위한 사전으로서 단어들의 모음입니다. 여기에 예제를 넣으십시오 : message1 : 9 월 26 일 브리지 커널 : 장치 usb0 입력 무차별 모드 message2 : 9 월 26 일 브리지 커널 : 장치 usb0 왼쪽 무차별 모드 위의 메시지는 왼쪽에 입력되어 입력 수가 낮기 때문에 다른 단어와 비교됩니다 . 그들은 이상 치인 것처럼 보입니다. – ln2khanal

2

불행히도 데이터 세트의 평균은 바로 그 값입니다 - 평균값. 그 점이 사실 이상한 것이 확실합니까? 귀하의 데이터에는 클러스터링과 관련하여 단일 이상치 인 것으로 보이는 것이 포함되어 있지만, 플롯을 살펴보면이 데이터가 선형 관계를 갖고있는 것처럼 보이기 때문에 진정으로 이상한 것입니까?

이 읽기가 실제로 문제를 일으키는 경우 완전히 제거 할 수 있습니다. 그 외에는 제가 제안 할 수있는 유일한 것은 실제 의미가 아닌 가중 평균을 계산하는 것입니다 http://en.wikipedia.org/wiki/Weighted_mean. 이렇게하면 평균을 계산할 때 더 낮은 가중치를 할당 할 수 있습니다 (그러나 가중치를 선택하는 방법은 다른 문제 임). 이것은 특정 데이터 포인트가 회귀 피팅에 연결된 가중치가 더 적은 가중치 회귀와 유사합니다 (예 : 특정 포인트의 신뢰성이 낮기 때문일 수도 있음) http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)#Weighted_linear_least_squares.

희망이 조금 도움이되거나, 적어도 당신이 추구하려고 시도 할 수있는 다른 수단에 대한 약간의 포인터를 제공합니다.

+0

나는 가중 평균을 구현하려했지만 진정으로 말하면 아직 적용되지 않았다! 그러나 현재는 체중으로 적용 할 수있는 요소가 없습니다. 나는 당신의 제안으로 곧 시도 할 것이고 당신의 개념으로 해결책을 찾을 수 있다면 대답 할 것입니다. 답장을 보내 주셔서 감사합니다. – ln2khanal