2012-06-15 4 views
2

2 가지 조건에서 200 개의 유전자에 대한 발현 값 (log2)을 가지며, 각 조건에 대해 20 복제본을 갖는다. 각 유전자의 각 조건 사이의 상관 관계를 계산하고 가장 높은 순위부터 가장 낮은 순위까지 ​​순위를 매기고 싶습니다.2 개의 샘플과 복제물의 상관 관계

이것은 생물 통계 문제의 문제이지만, 아직도 많은 사람들이이 문제에 직면 해있는 생물 학자/바이오 프로그래머에게 중요한 문제라고 생각합니다.

데이터 집합은 다음과 같습니다 : 나는 샘플 데이터의 각 샘플에 대한 두 개의 복제를 보여 주었다

Gene UT1   UT2   T1    T2 
DDR1  8.111795978 7.7606511867 7.9362235824 7.5974674936 
RFC2 10.2418824097 9.7752152714 10.0085488406 9.5723427524 
HSPA6 6.5850239731 6.7916563534 6.6883401632 7.3659252344 
PAX8  9.2965160827 9.2031177653 9.249816924 8.667772504 
GUCA1A 5.4828021059 5.3797749957 5.4312885508 5.1297319374 

.

R 또는 python으로 해결책을 찾고 있습니다. R의 cor 기능은 내가 원하는 것을 제공하지 않습니다.

+0

당신이 원하는 것이 무엇이고 R의 'cor' 기능이 그것을하지 않는 이유를 더 자세히 설명해 주시겠습니까? 예를 들어,이게 이거 야? (1) 각 유전자에 대해 두 개의 길이 - 20 벡터 벡터가 있는데, 하나는 치료되지 않은 상태이고 다른 하나는 치료 된 상태입니다. (2) 두 벡터 사이의 상관 계수를 계산하려고합니다. (3) 그런 다음 상관 계수의 값에 따라 유전자를 분류하고 싶습니다. –

+0

그런 경우라면 문제의 어느 부분에서 문제가 발생합니까? 상관 관계가있는 특정 데이터 비트 추출? 상관 번호 계산? 정렬하고 있니? –

+0

문제가있는 t- 테스트 – Angelo

답변

1

질문에서 올바르게 이해한다면 모든 유전자에 대해 UT1과 T1 및 UT2와 T2 간의 상관 관계를 계산해야합니다.

cor1 <- matrix(0,length(file$Gene),length(file$Gene)) 

는 모든 유전자에 대해 모든 상관 관계를 계산 :

mat1 <- cbind(file$UT1,file$T1) 

는 상관 행렬을 초기화

:

df <- data.frame(Gene = c("DDR1","RFC2","HSPA6","PAX8","GUCA1A") 
, UT1 = c(8.111796, 10.241882, 6.585024 , 9.296516 , 5.482802), 
UT2 =c(7.760651 ,9.775215 ,6.791656, 9.203118, 5.379775), 
T1 =c(7.936224 ,10.008549, 6.688340 , 9.249817 , 5.431289), 
T2 =c(7.597467 ,9.572343 ,7.365925 ,8.667773 ,5.129732)) 

이 같은 매트릭스를합니다 는 R에서 그것을 할 수있는 방법이있다 이렇게 :

for(i in 1:length(df$Gene)) cor1[i,] = apply(mat1,1,function(x) cor(x,mat1[df$Gene[i],])) 

도움이되기를 바랍니다.

+0

제가 t- 테스트가 두 표본에 얼마나 유사한 표현이 있는지 확인해야한다고 생각합니다. – Angelo

+0

귀하의 질문에 따르면 나는 당신이 상관 관계를 계산하고 싶다고 생각했습니다. – user1021713

0

첫 번째 열이 행 이름과 첫 번째 열 이름에 해당한다고 가정합니다. 즉, 데이터에 숫자 값만 있다고 가정하면 R에서 다음과 같이 행할 수 있습니다. 유전자들 간의 모든 쌍 상관 관계.

당신은 ... 시계열의 길이 무엇 사용할 상관 관계의 유형을 지정할 수 있습니다

오호 (데이터)? 적절한 조치를 선택하는 문제를 해결하기 위해 개발 된 모든 연구가있다. 예를 들어, 다음을 참조하십시오 : 클러스터링 유전자 발현 마이크로 어레이 데이터에 대한 근접 조치 : 유효성 평가 (Validation for Clustering Gene Expression Microarray Data) 방법론 및 비교 분석, "전산 생물학 및 생물 정보학에 대한 IEEE/ACM 트랜잭션, vol. 99, no. PrePrints, p. 1, 2012

0

내가 읽은 모든 자료는 각 복제물에 대해 평균 척도를 만들어야한다는 것을 나타냅니다. RMA과 같은 고급 사전 처리/표준화 방법에 대해 알아보기를 원하지만 mean과 을 모두 사용했습니다. 일단 치료를하면 치료되지 않은 것과 치료 된 것의 상관 관계를 계산할 수 있습니다.

찾고있는 방식으로 상관 관계를 계산할 방법이 없습니다. 이렇게하는 방법은 궁극적으로 복제물 전체에 걸쳐 요약 프로브 측정 값을 얻음으로써 두 조건에서 정보를 요약하는 것입니다 (위와 같이).

또는 각 프로브에 대해 처리 된 복제본과 처리되지 않은 복제본 간의 상관 관계를 계산하고 평균 상관 관계를 취할 수 있습니다.