이 시퀀스가 시퀀스의 시작 또는 끝 부분에 있다는 것을 고려하여 fasta (정렬) 파일에서 char (n) 반복을 계산하는 방법을 찾으려고합니다. 시퀀스 내부의 문자를 무시합니다.fasta (정렬) 파일의 문자 수
예 :
입력 : 제가
awk '{print gsub (srch,srch)}' srch="n"
으로 전체 시퀀스에 얼마나 많은 문자 (N)을 카운트 할 수 이때
>chromosome1
============
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
TGTGAAGATGCTGGAGGAAACAGGTAnnCAAAAGTATCTATATCCACAGTAAAACAAGTCCTATATTGACAT
CCTGAAAGGCCTCTCAGCAAGGAAGAAGCCACTGCTCCAAAACCGCCAnnnTAAAAAAGCCAGACTACGGTT
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn.
출력
71
74
하지만 ID가 필요합니다. ea (코드)를 사용하여 큰 블록 앞과 뒤의 두 그룹을 구별합니다.
[편집] 당신의 게시 샘플 입력 주어진 예상 출력을 포함하는 질문 . –