2017-12-13 4 views
0

나는 다소 기본적인 통계 질문이 있습니다. 나는 stack-overflow가 그것을위한 완벽한 장소가 아닐지도 모르지만 나는 좋은 통계 포럼과 stack-overflow에 대해 잘 모르는 소프트웨어 개발자로서 나를 잘 대우 해 주었다.왜곡 및 첨도를 고려한 표준 정규화

내 문제는 다음과 같습니다. 일부 데이터를 표준화해야합니다. 나는 두 개의 다른 세트를 가지고 있으며 정규화 후에 그들은 대략 동일한 분포를 공유해야한다. 지금까지 표준 표준화를 사용했습니다 (표준 점수 : (x - mu)/시그마). 이 두 가지 분포의 모든 값을 변환 한 후에는 모든 변환 값의 분포를 거의 동일하게하고 싶습니다.

이것은 지금까지 잘 작동했지만 지금은 두 개의 배포본 중 하나가 왜곡되어있는 문제에 부딪 혔습니다. 표준 정규화는이를 고려하지 않기 때문에 정규화 후에 평균 및 표준 편차는 동일하지만 한 분포는 비뚤어지고 다른 분포는 대칭입니다.

지금 내 질문 : 변형에 대한 기울이기 및 첨도를 고려한 표준 정규화를 수행하는 알려진 방법이 있습니까? 언급해야 할 중요한 사실 중 하나는 내 가치가 부정적 일 수도 있다는 것입니다.

이것이 올바른 포럼이 아니란 것을 알 수 있습니다. 누군가 신뢰할 수있는 통계 포럼을 가르쳐 주면 매우 기쁠 것입니다.

OLI

답변

2

당신의 목표는 두 데이터 집합이 같은 분포를 공유하는 경우 참조하는 경우, 필요 정상화 할 수 없습니다. Q-Q plot을 사용해야합니다. 데이터가 서로 다른 매개 변수화를 사용하여 공통 분배를 공유하면 결과는 직선에 가깝게 떨어집니다.

Q-Q 플롯을 생성하는 것은 두 세트에서 동일한 양의 데이터를 가질 때 쉽습니다. 두 세트를 정렬 한 다음, 쌍을 만들어 플롯하십시오. 집합의 크기가 다른 경우 작은 집합에 대한 분위수를 보간해야하며 이는 더 까다 롭습니다.

현재의 경우 세트 중 하나가 비뚤어지고 (하나 또는 두 개의 이상치 이상을 기준으로) 다른 하나는 대칭이면 다른 분포에서 온 것일 수 있습니다.

데이터가 정상적으로 분배 된 경우 "표준화"는 변형에 실제 분산이 사용되면 표준 표준을 가져오고 표본 분산을 사용하면 t- 분포를 나타냅니다. 그러나 표준화는 선형 변환이므로 모양을 보존합니다. 데이터가 정상적이지 않은 경우, 표준 변형은 마술처럼 종 모양과 대칭을 만들지 않습니다.

신뢰할 수있는 동일한 참조 분포를 얻는 유일한 변환은 quantiles 로의 변환입니다. 랜덤 변수 X가 역변환 가능 CDF F X이면 F X (X) ~ U (0,1) 즉, 자신의 CDF를 통해 X를 매핑하면 범위 (0,1)로 정규화 된 퀀 타이 트가 생성됩니다. well-known result입니다.). 이를 변환으로 적용하려면 올바른 CDF를 알아야합니다. 바로 Q-Q 그래프가 똑똑한 곳입니다. — 두 개의 데이터 세트가 동일한 기본 분포를 갖는다면, 실제 분포를 알고 있는지 여부에 관계없이 그들의 quantile이 서로 정렬됩니다.

결론 : 두 데이터 세트가 동일한 분포를 갖고 있는지 알고 싶다면 Q-Q 플로팅을 사용하십시오. 임의의 (연속적인) 입력 분포에 대해 알려진 참조 분포를 생성하는 변환을 원한다면 관련된 실제 CDF를 알아야합니다.

+0

없음을 몇 가지 간단한 모델을 생성 할 수 있습니다. 하지만 고마워. 필자는 왜곡과 첨도를 고려한 표준 정규화가 필요합니다. 표준 정규화의 요점은 정규 분포를 따르는 분포가 주어지면 모든 값을 표준화하여 mu가 0이고 σ가 1이 될 수 있다는 것입니다. 이제는 이와 비슷한 것이 있을지 궁금합니다. 나를 0의 mu와 0의 시그니처를 가진 정규화 된 분포로 끝낼 것입니다. –

0

일반 및 배포 독립적 인 방식 (누군가 "표준"이라고 할 수 있음)에 이러한 변환이 존재하는지 확신 할 수 없습니다. 표준 정규화의 경우 선형 변환 ((x - mu)/시그마)을 수행하므로 분포가 0, 시그마가 1 인 N (0,1) - 가우스와 비슷합니다.

Skew = 3 * (Mean - Median)/표준 편차로 계산됩니다. 그래서 0 평균과 1의 stddev, 왼쪽은 -3*Median입니다. 0이 아닌 비대칭 왜곡이있는 경우 0이되도록 0이 아닌 중간 값을 의미합니다.

왼쪽 옵션은 비선형 변환이며 배포에 따라 달라질 수 있습니다. 기본적으로, pjs는 CDF와 역 CDF로 작업하는 것으로 가정 된 quantile을 통한 유사한 진술 변환을 만들었습니다. 이것은 선형 변환을 넘어서고 분배 속성을 다루지 않고는 표준화 될 수 없습니다. Skewed Normal - -

아마 비대칭 배포를 위해 간단한 모델을 사용하여 이러한 변환에 내 의도하지

관련 문제