여러 열을 기반으로하는 데이터 세트에서 중복 레코드를 확인하고 레코드를 검토 한 후 R에서 가장 완전한 데이터로 유지하십시오. 데이터 포인트의 최대 수가 채워지는 각 이름과 연관된 행 (들). 날짜 열의 경우 잘못된 날짜를 누락으로 처리하고 싶습니다. 내 데이터는 다음과 같습니다레코드를 식별, 검토 및 중복 제거 R
df<-data.frame(Record=c(1,2,3,4,5),
First=c("Ed","Sue","Ed","Sue","Ed"),
Last=c("Bee","Cord","Bee","Cord","Bee"),
Address=c(123,NA,NA,456,789),
DOB=c("12/6/1995","0056/12/5",NA,"12/5/1956","10/4/1980"))
Record First Last Address DOB
1 Ed Bee 123 12/6/1995
2 Sue Cord 0056/12/5
3 Ed Bee
4 Sue Cord 456 12/5/1956
5 Ed Bee 789 10/4/1980
그래서이 경우에는 내가 기록 (1), (4)를 유지하는 것, 그리고 (5)이 약 85000 개 기록과 130 개 변수가있다, 그래서 체계적으로 할 수있는 방법이 있다면, 나 ' D는 도움을 인정한다. 또한, 나는 총 R 초보자 (당신이 말할 수없는 것처럼), 그래서 어떤 설명도 감사합니다. 감사!
레코드 1,4,5를 유지하는 기준을 설명 할 수 있습니까? – PoGibas
물론입니다. 기록 1, 4 및 5에는 주소에 대한 데이터와 DOB (생년월일)에 대한 올바른 형식이 있습니다. – GirlL
'DOB '의 올바른 형식은 무엇입니까? – PoGibas