2017-02-02 4 views
-4

그래서 .txt 파일에 게놈 (A, C, G, T)이 반복되는 반복 시퀀스입니다. 예 : TCGTGTTGAGAGGTATGAGACCTCTGGCAAGTACTTTGCCTACAAGATGGAGGAGAA .... (반복되는 수백만 개의 문자가 별도의 파일에 저장되어 있습니다.) 이제 전체 게놈에 "ACGT"서열 모티프 번호를 찾는 코드를 작성하고 싶습니다. 누군가가이를 도와 드릴 수 있습니까?java에서 다른 파일에 저장된 데이터에서 시퀀스의 반복 횟수를 찾는 방법은 무엇입니까?

+3

http://stackoverflow.com/questions/7378451/java-regex-match-count – RamPrakash

+0

이것은 http://algs4.cs.princeton.edu/55compression/Genome.java.html에도 도움이 될 수 있습니다. – cheesey

답변

0

이것은 sequence alignment problem의 단순화입니다. 이미 여러 시퀀스를 검색하는 데 필요한 시간을 줄이기 위해 설계된 데이터 구조를 사용하여 이러한 종류의 기능을 수행하는 multiple alignment tools이 이미 존재합니다. 둘 이상의 쿼리 문자열에 대해 이러한 종류의 검색을 실행하려면 java에서 선형 검색을 수행하는 대신 이러한 도구 중 하나를 사용해야합니다.

관련 문제