의 아웃 라이어를 자동으로 삭제합니다. 단일 링크 방법으로 데이터 세트의 특이점을 쉽게 식별 할 수 있습니다. 이제 이상 치를 자동으로 제거하고 싶습니다. 내 생각은 지정된 거리 값을 초과하는 데이터를 제거하는 것입니다. Plot 당신이 결과 dendrogram은 볼 수에서클러스터 분석에서 계산 된 응집 형 계층 적 클러스터링 데이터
library(cluster)
library(dendextend)
cluster<-agnes(mtcars,stand=FALSE,method="single")
dend = as.dendrogram(cluster)
: 여기 mtcars의 예제 데이터 내 코드입니다. 마지막 4 대 ("Duster 360", "Camaro Z28", "Ford Pantera L", "Maserati Bora")는 outliers로 식별되므로 구멍 행 (데이터 세트 mtcars)을 제거하고 싶습니다. 자동으로 어떻게 할 수 있습니까? 예 : 높이가 70보다 큰 행을 제거 하시겠습니까? 이상 치를 제거하는 많은 가능성을 시도했지만 데이터에 적용되지 않는 것 같습니다.
고맙습니다.
나는 당신과 같은 매우 간단합니다 생각하지 않습니다 제안하고있다. 당신은 "마지막 4 대가 확인 된 이상 치이다"라고 말합니다. 나는 당신에게 마세라티가 이상한 사람인 것을 줄 것이다. 그러나 왜 당신은 다른 3 명은 외계인이고 3 명은 작은 집단이 아니라고 말하니? – G5W
아웃 라이어가 잘못된 단어 일 수 있습니다. 거리가 70 이상인 데이터를 제거하고 싶습니다. – Jules