2016-07-22 7 views
0
dat <- as.data.frame(replicate(100,sample(c(0,1),100,replace=TRUE))) 

이러한 2 진 변수 간의 상관 계수를 항목으로하여 100x100 행렬을 생성하려고합니다.이진 변수에 대한 상관 분석 R

변수가 연속적이면 행렬을 만들 때 cor()을 사용했을 것입니다. 방법으로 피어슨과 cor()이 합리적인지 확실하지 않습니다. 그렇지 않다면 함수 fn()을 찾아서 이진 벡터 쌍 사이의 상관 관계를 계산할 수 있다고 해봅시다. 100 x 100 매트릭스를 구성하는 효율적인 방법은 무엇입니까?

+0

이진 변수 란 무엇입니까? 즉 그들은 정상적으로 분포 된 잠재적 잠재 변수를 나타낼 수 있는가? – user20650

답변

0

스택 오버플로 대답이 확실하지 않습니다. 당신이 요구하는 것은 바이너리 벡터 간의 상관 관계입니다. 이것은 Phi coefficient이라고 불리며 Pearson이 발견했습니다.

작은 값에 대한 피어슨 상관 관계를 근사합니다. 당신은

sqrt(chisq.test(table(dat[,1],dat[,2]), correct=FALSE)$statistic/length(dat[,1])) 

을 시도하고 근사 합리적으로 큰 값을 꽤 좋은 때문, 그래서보다 40

말을한다이

cor(dat[1], dat[2]) 

같은 값 0.08006408을주는 것을 알 수 있습니다 , 나는 약간의 시간을 절약하고 단지 해결책으로 cor(dat)을 사용하는 것을지지 할 것이다.