아웃 라이어를 볼 수 있도록 boxplot (ggplot의 geom_boxplot 사용)으로 데이터를 변환했습니다. 이후에 나는 데이터에서 그것들을 제거하기를 원했다. 그래서 "ggplot_build"를 사용하여 플롯의 모든 정보를 얻은 다음 새 이름으로 저장했습니다.박스 플롯 다이어그램의 결과를 사용하여 데이터 프레임에서 아웃 라이어를 서브 세트
Outlier_boxplot<-ggplot_build(boxplot)
이제 아웃 라이어가있는 열을 추출 할 수있었습니다. 다음 단계에서는 추출 된 아웃 라이어와 동일하지 않은 my data.frame의 값만 선택하기 위해 "하위 집합"기능을 사용했습니다.
Without_Outlier_dF<-subset(round(dF[1],digits=3),Test !=c(round(Outlier_boxplot$data[[1]]$outliers[[4]],digits=3))))
거의 모든 경우에 잘 작동했습니다. 문제는 때로는 가치 (심지어 동일하게 보일지라도)가 빠지지 않는다는 것입니다. 값 data.frame의
추출 :
-234,347 75,764 93,34 95,237 99,005 100,044 97,924 98,875 98,072 99,569 98,848 98,414 99,33 96,901 99,29 100,359 99,169 97,828 97,146 97,229 94,278 97,146 97,229 94,278
이상 치는
-234.347 75.764 93.340 94.278
결과 : 94,278
95,237 99,005 100,044 97,924 98,875 98,072 99,569 98,848 98,414 99,33 96,901 99,29 100,359 99,169 97,828 97,146 97,229 94,278
이상 치는이 값을 제외하고 제거는 이미 (모든 값을 반올림 시도 당신이 볼 수 있듯이) 도움이되지 않았습니다. 아이디어가 있습니까?
감사합니다. 이것은 나를 많이 도왔다. 하위 커맨드 명령의 한계로 상위 위저 수염의 극치를 사용한 다음 모든 이상 치를 제거했습니다. – user3641144