2016-12-18 7 views
0

값이 누락 된 중복 행이 포함 된 데이터 프레임이 있습니다. 특정 열의 데이터를 유지하면서 중복 행을 제거하고 싶습니다 (예 : 아래의 예에서 Age). 한 열의 값이 다른 열보다 모델에 더 많은 가중치가 있으므로 해당 열의 데이터를 유지하려고합니다. Removing duplicate Values in Dataframe in R에서 제안 된 방법을 시도했지만 데이터 프레임이 크고 누락 된 값이 둘 이상의 열에 분산되어 있습니다. 모든 제안을 주시면 감사하겠습니다.데이터 프레임에 누락 값이있는 중복 값 제거

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA 
ali, NA, bali, matric, 786 
brad, NA, sofia, inter, 555 
ali, 9999999, bali, matric, 444 

예상 출력은, 다음과 같이됩니다

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA 

안부, dplyr를 사용

DF with duplicated Missing values

+0

'dput'하십시오 데이터를 다음과 같이 base를 사용. 예상되는 결과는 무엇입니까? – Christoph

+0

질문에 예상되는 결과를 추가하십시오. 또한이 문제를 해결하기 위해 사용했던 코드를 보여줄 수 있습니까? – Dartmouth

+0

그냥 '주문'하고 단순히 중복 된 항목을 제거하십시오 – Sotos

답변

0

, magrittr. 그러나 고유 한 행 집합 age을 보장하지 않을 수있는 age 매개 변수에 대한 임계 값을 설정해야합니다.

THRESHOLD <- 100 
df %<>% na.omit() %>% filter(age<THRESHOLD) 

또는

THRESHOLD <- 100 
df <- df[complete.cases(df),] 
df <- df[df$age < THRESHOLD,] 
관련 문제