2017-09-25 2 views
0

아래의 데이터 세트에서 여행 소요 시간과 연령의 상관 관계를 찾고 싶습니다. 나는 cor(age,df$tripduration) 함수를 적용하고있다. 그러나, 그것은 나에게 출력 NA를주고있다. 상관 관계에 대해 어떻게 생각하는지 알려주세요.데이터 세트에서 상관 관계를 찾는 방법

age <- (2017-as.numeric(df$birth.year)) 

df$tripdurationtripduration(seconds) : 나는 다음과 같은 구문으로 "나이"를 발견했다.

다음은 데이터입니다. 성별의 숫자 1은 남성을 의미하고 2는 여성을 의미합니다.

tripduration birth year gender 
439    1980  1 
186    1984  1 
442    1969  1 
170    1986  1 
189    1990  1 
494    1984  1 
152    1972  1 
537    1994  1 
509    1994  1 
157    1985  2 
1080    1976  2 
239    1976  2 
344    1992  2 
+0

샘플 코드를 실행할 때 8.37 %가 발생하므로 입력 오류가 발생했을 것입니다. – lebelinoz

답변

1

나는 데이터 프레임으로 숫자를 뺀 것으로 생각하므로 작동하지 않을 것입니다. 이것은 나를 위해 일한 : 그런데

birth <- df$birth.year 
year <- 2017 
age <- year - birth 
cor(df$tripduration, age) 
>[1] 0.08366848 

# To check coefficient 
cor(dat$tripduration, dat$birth.year) 
>[1] -0.08366848 

, 사람들이 복사하여 자신의 R.이 실제로 답을 찾는 데 도움이에 붙여 넣을 수 있습니다 쉽게 복제 데이터로 질문을 포맷하십시오.


OP의 의견에 따르면, 여기에 새로운 제안이 있습니다. 상관 테스트를 수행하기 전에 NA로 행을 삭제하십시오.

df <- df[complete.cases(df), ] 
age <- (2017-as.numeric(df$birth.year)) 
cor(age, df$tripduration) 
>[1] 0.1726607 
+0

작동하지 않습니다. 위의 구문으로 나이를 얻을 수 없습니다. 따라서 상관 관계도 작동하지 않습니다. 그러나 내가 보낸 <- (2017 - as.numeric (df $ birth.year)) 코드를 사용하여 나는 생년의 원하는 연령을 얻을 수있었습니다. 우리가 다른 것을 할 수 있을까요? – Rikin

+0

'cor (age, df $ tripduration, dat, use = "pairwise.complete.obs")를 시도하십시오. –

+0

예제가 NA가 포함 된 큰 데이터 세트의 일부입니까? –

관련 문제