저는 https://www.kaggle.com/c/titanic의 타이타닉 데이터 세트를 사용하고 있습니다.R의 사용자 정의 범위로 데이터 그룹화 (예 : 0-4, 1-5, 2-6, 3-7 등)
저는 "0-4", "1-5", "2-6", "3-7"등과 같은 다른 연령 그룹을 만들고 생존율이 다른 연령 그룹을 찾고 싶습니다. 최고. 내 나이 그룹은 정수 간격 [0,80] 내에 있습니다. 원래 데이터 세트의 "Age"열에는 NAs도 포함됩니다. "생존"열에는 생존했는지 여부 (0 = 아니오, 1 = 예)에 대한 정보가 있습니다.
이 문제를 해결하려고했지만 작동하지 않았습니다. 어떤 도움을 주셔서 감사합니다.
for(i in 0:80){
max= -Inf
x[i]<-(sum(subset(dataset, Age < (i+5) & Age >= i, select = "Survived")))/(length(which(dataset$Age < (i+5) & dataset$Age>= i)))
if (x[i] > max) max <- x[i]
return(max, i, i+5)}
그룹은 "0-4", "1-5", "2-6", "3-7"'겹칩니다. 'Age == 3 '의 값은 어떤 그룹에 속하는가? –
예, 나이 == 3은 여러 연령대에 속합니다. 나는 그것이 우스꽝 스럽다는 것을 이해한다. 그러나 루프를 작성하거나 이와 같은 그룹으로 테이블을 만들면 모든 단계에서 5 단계의 생존율을 알 수 있습니다. – iomedee