DNA 시퀀스 파일 (FASTQ 파일) 작업 중입니다.문자열에서 패턴의 ALL 발생 위치를 찾습니다.
Read2- @
NAAAGTGAGATTCGAAATAAATACATCTGTGGCTTCACTTTGAACGGAACGATGTTCTCGTAT
+
1D=DDADEHHHHHIGIJJJJGGFGHIHIJJIJJJJJIIIIGG99BDGHHHEGHJJIHHJJGIH
좋은
Read1-
2 나쁜 장소
Read3 @NTTCGTAAAGCAGTGAACGAAATACATCTGTGGCTTCACTATGTTCTCGTATGCCGGAACGTC
+
2#1=DFFFFHHHGHGHIJHJIJJJJJJJJJJJJJJJJJGIIHJJJJIIIGGHIIJJIHIIIIJG
가지고 @ : 하나의 좋은, 하나의 초기
READ4 @NCAGGATCTGCATCGTGAACGATACATCTGTGGCTTCACTAGAACGTGTTCTCGTATGCCGTC
+
B#1:[email protected]
: 하나의 좋은, one after after
NGCCCTTGACCGCAGGTTAGTGCTAAATACATCTGTGTACTGAACGTCACTATGTTCTCGTAT
+
E#1:[email protected]@B>AC<7,[email protected]<<?AA?AA)8>ABBAAABABBA
시퀀스 (@로 시작하는 줄 아래 줄) 내에서 6 자 길이의 패턴 (GAACG)을 찾고 싶습니다.
중요한 것은 문자열 내에서 42 번 위치에서 패턴을 찾을 수있게하는 것입니다.
패턴이 해당 위치에서 발견되면 시퀀스를 앞에있는 행과 그 다음 2 행과 함께 새 파일로 복사합니다. awk로 이것을 시도 할 때, 모든 teh index(), match() 함수는 첫 번째 항목 만 보았고 더 이상 보이지 않기 때문에 41 번째 위치 전에 패턴을 찾으면 내 데이터를 복사하지 않습니다. 새로운 파일.
기본적으로 반환해야 내 스크립트 1, 3, 4를 읽고...
내가에만 시퀀스를 패턴에 대한 내 FASTQ 파일을 화면이 발견되는 모든 위치를 평가하고 고려할 수있는 방법42 번 위치에서 패턴이 다른 위치에 존재하는지 여부에 관계없이?
감사합니다. 나는 리눅스 환경에서 일하고 있는데 수백만 개의 시퀀스가있는 시퀀스 파일을 읽어야한다. 또한 시퀀스는 두 번째 행 (원래 메시지에 표시된대로)부터 시작하여 매 4 행마다 있습니다. 그래서 나는 자바 스크립트가 불행히도 내 경우에는 정말 적용될 수 있다고 생각하지 않는다 ...하지만 많이 고마워! – user1339677
사실 그것은 간단했습니다 ... substr (seq, 42,6) == 패턴은 true 여야합니다. – user1339677