큰 데이터 세트 (> 37m 개인)가 있고 R을 사용하고 있습니다. 초보자입니다. 현재, 나는 분석하고있는 국가의 주당 평균 가구 크기를 계산하려고 노력 중이다. 필자는 각 개인에게 개별 번호를 부여하는 데 필요한 변수와 HH라는 변수 (HouseHolds의 경우) 아래의 세대 번호를 제공하는 별도의 데이터 프레임을 만들었습니다. 이제 R이 내가 만든 새 데이터 프레임의 특정 열 (예 : HH 열)에서 중복을 제거하기를 원합니다.중복 제거 R
나는 duplicate() 및 unique() 함수를 사용하여 여러 번 시도했지만 작동하지 않습니다. 나는 또한이 "HH"열을 별도의 시트에서 격리하려고 시도했지만 이러한 함수는 여전히 중복을 제거하지 않습니다. 또한 벡터로 변환 한 다음 duplicate() 및 unique() 함수 (아래에서 볼 수있는 것처럼)를 수행했습니다.
엑셀에서 더 작은 샘플을 사용할 때 완벽하게 잘 작동합니다 (중복을 제거하는 것이 좋습니다). 여기
HHKE$HH<-(paste(HHKE$eano, HHKE$county, HHKE$tif))
이의 예입니다
HHvars<-c("eano", "county", "tif")
HHKE<-PHCKCON[HHvars]
as.numeric(HHKE$county)
HHKE$county<-as.numeric(HHKE$county)
가 그럼 난 내 가구에 대한 4 번째 열을 생성 :
이
내가 내 초기 데이터 세트 (즉 PHCKCON)를 기반으로 내 데이터 집합을 생성하는 방법이다 내 데이터 세트 : The values in the first three columns are numeric whilst the last are classified as characters다음은 데이터의 작은 샘플입니다 (이것들을 고안했지만 같은 생각입니다) :
그런 다음 네 번째 열을 제공mydata$HH<-paste(mydata$Enumeration.area, mydata$County, mydata$Household.members)
: 여기
Enumeration.area County Household.members
1 a 4
1 a 4
1 a 6
1 a 6
1 a 8
1 a 8
1 a 8
2 a 4
2 a 4
2 a 6
1 b 6
1 b 6
1 b 8
1 b 8
1 b 12
1 b 12
1 b 12
1 b 12
그리고내가 HH라는 제 4 열을 생성 한 것입니다.
HH
1 a 4
1 a 4
1 a 6
1 a 6
1 a 8
1 a 8
1 a 8
1 a 8
2 a 4
2 a 4
2 a 6
2 a 8
1 b 6
1 b 6
1 b 8
1 b 8
1 b 12
1 b 12
1 b 12
1 b 12
가 그럼 난 (복제하기 위해) 내 HH 컬럼에 대한 별도의 데이터 세트를 생성 :
attach(mydata)
HHvars<-c("HH")
EX2<-mydata[HHvars]
그때 EX2를 복제하려고 HH의 콜 럼 :
EX2[!duplicated(EX2$HH),]
하지만 작동 안됨. 사용하지 않을 때
unique()
기능 중 하나입니다.
더 명확 해지기를 바랍니다. 그리고 어떤 도움을 주셔서 감사드립니다.
건배, 마들렌
당신을 위해 무엇을 요구하는지 것은 단순히 각 enumeration.area의 각 카운티의 평균과 중앙값의 경우
그래서 정확히 무엇을하려합니까? 시도하고있는 결과물의 예를 들려 줄 수 있습니까? 그리고 열의 변수가 무엇을 의미하는지 명확히 할 수 있습니까? –
나는 이것을 설명하는 방법을 모르겠다 ... 내가 원하는 최종 결과는 R이 나에게 평균 가구 크기를 말해주는 것이다. 현재 R은 모든 동일한 대답을 요약하지 않습니다. –
몇 가지 예제 입력을 적절한 열 이름과 원하는 예제 출력으로 게시하십시오. 이 작은 입/출력 데이터를 R로 직접 구성하고 질문을 편집하여 게시 할 수 있습니다. 그것은 도움을 얻는 가장 좋은 방법입니다. – Gopala