2017-04-03 1 views
0

저는 TCG (Trading Card Game) 가격 책정 프로그램을 만들고 있습니다. 그 업무는 여러 공급 업체의 데이터를 수집하고 해당 데이터를 사용하여 해당 카드의 시장 가격을 결정하는 것입니다. 예를 들어, 이론적 인 카드 X를 생각해 봅시다.가격 데이터에서 특이 치를 제거하는 방법은 무엇입니까?

X에는 판매하는 공급 업체에 따라 다양한 값이 있습니다. 이 값이 달러 참조

[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]

($) 값 : 여기서 그 값의 어레이이다.

이 시장에서 저의 고객으로서 저의 가격 데이터는 이고, 보통은입니다. 가격 데이터는 한 가격으로 끌리는 경향이 있습니다. 많은 업체들이 가끔 이상한 가격으로 경쟁 가격으로 카드 가격을 책정합니다.

위의 가정하에 위의 데이터 세트에서 특이점을 제거하는 방법은 무엇입니까? 언뜻보기에는 $ 2.00와 $ 0.10이 아웃 라이어로 보입니다. 그러나 가격은 시장에서 변동합니다. 카드의 가치가 급등하고 역으로 탱크에 들어간다는 것은 드문 일이 아닙니다.

평균으로부터 표준 편차의 임계 값을 사용하는 것과 같은 몇 가지 방법을 연구했습니다 (예 : 가격이 평균값보다 2 표준 편차 이상이거나 이상 값이라고 생각하는 경우) 또는 중앙 절대 편차를 사용하는 등의 방법을 연구했지만, 어떤 알고리즘이 내가 작업하고있는 맥락에서 심지어 의미가 있는지를 확신 할 수 없다.

답변

0

편차 방법을 사용하려는 경우 평균/표준 편차 대신 중간/중간 절대 편차를 사용하십시오. 이는 해당 방법이 이상 치가 정확히 무엇인지 정확하게 구분하지 않기 때문입니다. 특정 애플리케이션의 맥락에서 승수를 실험해야합니다 (예 : 이상치가 MAD보다 3 배 더 많음).

0

알고리즘의 선택에는 "가격 변동"에 대한 의견이있는 일부 밀도 추정치가 포함되어야합니다. 따라서 의 전체 측정치 인의 중앙값과 십진수는 이상 치인 항목의 마지막 단어가되어서는 안됩니다. 그들은 이웃들과 비교되어야합니다. 둘 다에 매우 민감 여기

는, 당신은 표본 평균과 표준 편차에 따라 이상치에 대한보고 싶지 않아 Kernel Density 추정량

https://www.r-bloggers.com/a-kernel-density-approach-to-outlier-detection/

enter image description here

2

에 대한 몇 가지 정보입니다 이상 치. 백분위 기반 접근법을 사용하는 것이 좋습니다. p 번째 백분위 수는 데이터의 p %와 (100-p) %가 각각 ≤ 및 ≥ 인 값입니다. 25 th 및 75 th 백분위 수 (종종 Q1 및 Q3으로 표시됨)는 일차 및 삼중 사 분위로도 알려져 있습니다. Q3-Q1의 차이는 IQR (Inter-Quartile Range)이라고합니다.

일반적으로 허용되는 통계 값의 외래 값은 [Q1 - 1.5 * IQR, Q3 + 1.5 * IQR] 범위를 벗어난 관측 값입니다. 자세한 내용은 statisticshowto.com 또는 Wikipedia quartile article을 참조하십시오.

하나의 복잡성은 Q1과 Q3을 결정하는 방법에 대한 의견이 다릅니다. 어떤 사람들은 실제 관측 중 하나가되어야한다고 생각하는 반면, 다른 관측은 보간해야한다고 생각합니다.Statistics How To's IQR calculator을 사용하면 데이터의 극단이 모두 이상 치입니다. 보간법을 사용하는 JMP에서 극단값은 모두 이상치입니다. 이것은 주로 스파 스 데이터의 문제입니다. 데이터가 많을수록 두 가지 접근 방식의 불일치가 사라집니다.

백분위 수 기반 솔루션의 실질적인 이점은 분산 가정에 의존하지 않는다는 것입니다. 이 접근법은 정규성에 대한 가정이 맞는지 아닌지에 관계없이 견고하게 작동합니다.

관련 문제