PERL에서이 문제를 해결하려고 시도했지만 더 적은 데이터로만 작동하므로 R에서 솔루션이 필요합니다. PERL, 더 빠르고 쉽습니다. 나는 하나 개의 게놈 (제 1 및 제 2 열)의 두 위치이 같은 파일들을 bteween 거리 (세 번째 열)R에서 두 개의 빅 데이터 프레임 반복하기 조건을 사용하여 동시에 두 개의 다른 위치 비교하기
cg00000029 cg01016459 848
cg00000029 cg02021817 38
cg00000029 cg02851944 13
cg00000029 cg02976952 238
cg00000029 cg03943270 93
cg00000029 cg07396495 604
cg00000029 cg12190057 929
있어 그리고 내 두 번째 파일은 게놈 위치와 함께,이 하나이며, 각 샘플 (1 ~ 6)에 대해 각 열의 한 표현식 값
TargetID sample1 sample2 sample3 sample4 sample5 sample6
cg00000029 0.157 0.444 0.466 0.805 0.5489 0.448
cg01016459 0.873 0.930 0.926 0.942 0.932 0.9128
cg03943270 0.871 0.920 0.926 0.942 0.942 0.942
사실 나는 100 개의 샘플을 가지고 있습니다. 내 생각은 각 샘플에 대해 최종 값을 얻으려면 표현식 값 대신 cg와 거리를 사용하십시오. 난 단지 두 개의 샘플을 가지고 예를 들어, PERL에서 샘플 2
0.444 0.930 848
0.444 0.920 93
샘플 1
0.157 0.873 848
0.157 0.871 93
위해 나는 아무 문제가 없다, 나는 두 estructures에 배열의 해시를 파일을로드 한 다음 중첩 된 foreach 루프를 사용하여 그것들을 비교하지만, 2 샘플에 대해서만 많은 시간이 걸리므로 100을 상상하십시오! I 문제 난 후 제 CPG 값을 사용하여 표현 된 데이터를 반복하는 루프 같은 것을 필요로하거나 기능을 적용하는 것이
expression[rownames(expression) %in% rownames(distances),]
로 뭔가되는 2 개 데이터 프레임의 데이터를 로딩하고 사용 R에 시도 둘째, 표현식에 쌍으로 있으면 표현식 값과 거리를 넣는다.
`
첫 번째 파일의 첫 번째 열은 실제로 다양합니까? 그렇다면 두 번째 열이있는 모든 순열을 통과합니까? "cg00000029 cg01016459"가 열 1과 2에 나타나지만 그 반대가 나타 납니까? – John
아니요 사실 2 포인트 당 단 하나의 거리가 있습니다. 반복하지 않습니다 – user976991
첫 번째 열은 다양하지만 사실 2 포인트에 대해 단 하나의 거리 만 있습니다. 반복하지 않기 때문에이 특정 거리 cpg가 계산됩니다. 반복하지 마십시오 – user976991