일반적으로 R을 사용하고 merge.by를 사용하지만이 파일은 부서의 컴퓨터 중 너무 큰 것 같습니다 이걸 처리해야 해! (유전학 분야에서 일하는 사람을위한 추가 정보) 본질적으로, 대체 (imputation)는 snp ID의 rs 번호를 제거하는 것으로 보이며, Chromosome : Position 정보를 그대로두고 있습니다. 그래서 내가 원하는 모든 rs 번호를 가진 링키지 파일을 만들었고 파일 1의 Chr : Pos 열을 파일 2의 rs 수로 대체하려고합니다.파일 1의 열 A가 파일 2의 열 A 인 경우 파일 2의 열 B로 대체하십시오.
그래서 코드 작성 방법을 생각하려고했습니다 :
파일 21 rs58108140 0 10583 1:10583
1 rs192319073 0 105830003 1:105830003
1 rs190151039 0 10583005 1:10583005
1 rs2809302 0 105830229 1:105830229
1 rs191085550 0 105830291 1:105830291
원하는 출력과 같은
1111 1111 1:10583 G G
1112 1112 1:10583 G G
1113 1113 1:10583 G G
1114 1114 1:10583 G G
1115 1115 1:10583 G G
처럼
If $3 of file 1 = $5 of file 2, replace $3 file 1 with $2 of file 2.
파일 1은 보이는 것 수 :
1111 1111 rs58108140 G G
1112 1112 rs58108140 G G
1113 1113 rs58108140 G G
1114 1114 rs58108140 G G
1115 1115 rs58108140 G G
큰 파일 2의 크기는 어떻게 될 수 있습니까? 열 5와 2에서'dict'을 만들 수 있습니까? – oleg
각 파일의 크기는 어느 정도입니까? –
파일 1의 3 열이 파일 2의 열 5와 같은 순서로 그룹에 나타나면 awk를 사용하고 file1에서 새 그룹을 만날 때마다 file2의 getline을 수행하십시오. Cant '가 지금 세부 정보를 제공하고 실행해야합니다. sudo_o가 세부 정보를 제공 할 수 있습니다. –