2017-04-12 2 views
0

seaborn 바이올린 플롯을 생성 할 때 (inside = 'box'사양을 통해) 얻을 수있는 내부 상자 그림이 내 실제 데이터에 정확하지 않습니다. 아래 예제 플롯을 참조하십시오. 실제 데이터는 얇은 꼬리 끝까지 확장됩니다. 그러나 박스 플롯은 바이올린 영역 내에서 끝납니다.seaborn 바이올린 플롯의 내부 상자 그림이 정확하지 않음

이 상자 그림은 표준 편차가 아닌 4 분위수를 나타내는 것으로 가정하면 부정확합니다.

내 코드가 seaborn violinplot을 호출하는 코드는 다음과 같습니다. 보시다시피, 나는 옵션 cut = 0을 설정했는데, 이것은 바이올린 음모의 꼬리가 나의 극단적 인 데이터를 넘어서지 않는다는 것을 의미 할 것입니다. 그리고 실제로, 바이올린의 범위가 올바른 장소에. 그러나 검사 결과 내부 박스 플롯이 심지어 가까이에 있지 않음을 알 수 있습니다.

sns.violinplot (x = '정책', y = 'LMP', 주문 = cat_order, 데이터 = df, 내부 = '상자', 크기 = '영역', bw = 0.2, 컷 = 0, 선 두께 = 0.5, ax = axes)

여기서 해보는 것에 대한 통찰력이있는 사람이 있습니까? 그들은 내 데이터 중 일부가 이상 치라고 판단하고 제외시키는 것을 boxplot의 목적으로 만 결정합니까? 그걸 제어하는 ​​방법에 대한 아이디어가 있습니까?

enter image description here

답변

0

OK, 나는 내 자신의 질문에 대한 답을 아래로 추적. 엄격한 사 분위수를 기반으로하는 박스 플롯에 익숙한 동안 Seaborn은 박스 플롯의 상자 팁이 "사 분위수 범위"또는 IQR의 1.5 배에 불과한 또 다른 (명백하게 공통적 인) 접근법을 사용합니다.

정보 시본의 상자 그림 여기를 참조하십시오 : http://seaborn.pydata.org/tutorial/categorical.html#distributions-of-observations-within-categories

IQR의 정의 여기를 참조하십시오 : http://stattrek.com/statistics/dictionary.aspx?definition=Interquartile%20range

관련 문제