다중 고정 염기 서열 파일 (예 : Roche-454 ~ 500,000 개의 평균 읽기 길이 250bp 읽기)을 "bin"(개별 파일로 분할)하고 싶습니다. 나는 각각의 GC 내용에 기반한 저장소를 원한다.비닝 시퀀스는 GC 내용으로 읽습니다.
< 20 % GC 함량
21-30 %의 GC 함량
31-40 %의 GC 함량
41-50 %의 GC : 얻어진 출력은 8 멀티 FASTA 파일 것 콘텐츠
51-60 % GC 함량
61-70 %의 GC 함량
사람이 이미이 작업을 수행하는 스크립트 나 프로그램을 알고 있나요
691,363,21071~80% GC 함량
> 80 % GC 함량? 누군가가 GC 콘텐츠를 기반으로 다중 파일을 정렬하는 방법을 제안 할 수 있습니까? 그렇다면 관련 빈으로 분류 할 수 있습니까?
태그를 편집하여 '가비지 콜렉션'을 제거합니다. 아니요, 불행히도 쉽게 도와 줄 수있는 방법이 없습니다. 머리 꼭대기에서 내가 아는 도구가 없습니다. 프로젝트의 범위를 알고 있으며 도움이 필요하면 기꺼이 당신과 협력 할 것입니다. – qdot
GC는 구아닌 - 시토신을 의미합니다. 즉, 텍스트 파일을 분석하고 메트릭을 계산하고 메트릭을 기준으로/bin을 정렬합니다. – qdot
파일 형식 샘플을 제공해 주시겠습니까?Fasta 파일의 시퀀스 (대문자)가 어떻게되는지는 알고 있지만, 헤더의 모양은 무엇이며 항목을 구분하는 새로운 줄이 있습니까? – canavanin