I는 다음과 같다 게놈 영역을 특성화 파일 가지고 기본적 PGB이 염색체 번호 (CHROM) 특징 게놈 영역의 종류를 설명 추출물 겹치는 영역
chrom chromStart chromEnd PGB
chr1 12874 28371 2
chr1 15765 21765 1
chr1 15795 28371 2
chr1 18759 24759 1
chr1 28370 34961 1
chr3 233278 240325 1
chr3 239279 440831 2
chr3 356365 362365 1
이 시작 (chromStart을) 및 단부 (chromEnd) 좌표.
는 I은 = (1, 2)의 새로운 카테고리, PGB = 3 출력되는 PGB의 영역과 중첩하는 중첩 영역을 축소하려는 :
chrom chromStart chromEnd PGB
chr1 12874 15764 2
chr1 15765 24759 3
chr1 24760 28369 2
chr1 28370 28371 3
chr1 28372 34961 1
chr3 233278 239278 1
chr3 239279 240325 3
chr3 240326 356364 2
chr3 356365 440831 3
기본적 I 출력 파일을 획득하고자하는 고유 한 지역을보고합니다. 두 가지 기준이 있습니다.
첫째, PGB (열 4)가 행간에 동일하면 병합 범위입니다. 예. PGB 행 사이 다르면
chrom chromStart chromEnd PGB
chr1 1 10 1
chr1 5 15 1
출력
chrom chromStart chromEnd PGB
chr1 1 15 1
둘째, CHR (컬럼 1)과 동일하고, 범위 (COL2 및 3) 오버랩 겹치는 범위를보고 PGB 등 = 3과 개별 범주에 고유 한 범위로
예 :
chrom chromStart chromEnd PGB
chr1 30 49 1
chr1 50 100 3
chr1 101 150 2
chrom chromStart chromEnd PGB
chr1 30 100 1
chr1 50 150 2
출력은 그게 더 문제를 보여 바랍니다.
지금까지 시도해 보셨나요? – chilemagic
필자는 perl/unix에 매우 익숙하므로 Excel에서 수동으로 수행하고 있습니다. 불행히도 나는 더 빠른 대안을 원하기 때문에 60000+ 라인을 가지고있다. – user3222627
@ user3222627 원하는 결과를 얻는 방법에 대해 좀 더 설명해야합니다. –