2012-04-17 7 views
0

DNA 시퀀스 파일 (FASTQ 파일) 작업 중입니다.문자열에서 패턴의 ALL 발생 위치를 찾습니다.

Read2- @

NAAAGTGAGATTCGAAATAAATACATCTGTGGCTTCACTTTGAACGGAACGATGTTCTCGTAT 

+ 

1D=DDADEHHHHHIGIJJJJGGFGHIHIJJIJJJJJIIIIGG99BDGHHHEGHJJIHHJJGIH 
좋은

Read1-

2 나쁜 장소

Read3 @
NTTCGTAAAGCAGTGAACGAAATACATCTGTGGCTTCACTATGTTCTCGTATGCCGGAACGTC 

+ 

2#1=DFFFFHHHGHGHIJHJIJJJJJJJJJJJJJJJJJGIIHJJJJIIIGGHIIJJIHIIIIJG 

가지고 @ : 하나의 좋은, 하나의 초기

READ4 @
NCAGGATCTGCATCGTGAACGATACATCTGTGGCTTCACTAGAACGTGTTCTCGTATGCCGTC 

+ 

B#1:[email protected] 

: 하나의 좋은, one after after

NGCCCTTGACCGCAGGTTAGTGCTAAATACATCTGTGTACTGAACGTCACTATGTTCTCGTAT 

+ 

E#1:[email protected]@B>AC<7,[email protected]<<?AA?AA)8>ABBAAABABBA 

시퀀스 (@로 시작하는 줄 아래 줄) 내에서 6 자 길이의 패턴 (GAACG)을 찾고 싶습니다.

중요한 것은 문자열 내에서 42 번 위치에서 패턴을 찾을 수있게하는 것입니다.

패턴이 해당 위치에서 발견되면 시퀀스를 앞에있는 행과 그 다음 2 행과 함께 새 파일로 복사합니다. awk로 이것을 시도 할 때, 모든 teh index(), match() 함수는 첫 번째 항목 만 보았고 더 이상 보이지 않기 때문에 41 번째 위치 전에 패턴을 찾으면 내 데이터를 복사하지 않습니다. 새로운 파일.

기본적으로 반환해야 내 스크립트 1, 3, 4를 읽고

...

내가에만 시퀀스를 패턴에 대한 내 FASTQ 파일을 화면이 발견되는 모든 위치를 평가하고 고려할 수있는 방법

42 번 위치에서 패턴이 다른 위치에 존재하는지 여부에 관계없이?

답변

0

소리가 정규식 문제와 유사합니다.

많은 언어와 스크립트 언어는 정규식을 지원하지만이 자바 스크립트의 좋은 예로 나타납니다 답장을 보내

how-to-find-all-occurrences-of-one-string-in-another-in-javascript

+0

감사합니다. 나는 리눅스 환경에서 일하고 있는데 수백만 개의 시퀀스가있는 시퀀스 파일을 읽어야한다. 또한 시퀀스는 두 번째 행 (원래 메시지에 표시된대로)부터 시작하여 매 4 행마다 있습니다. 그래서 나는 자바 스크립트가 불행히도 내 경우에는 정말 적용될 수 있다고 생각하지 않는다 ...하지만 많이 고마워! – user1339677

+0

사실 그것은 간단했습니다 ... substr (seq, 42,6) == 패턴은 true 여야합니다. – user1339677

관련 문제