에 fasta 파일을 구문 분석하는 방법을 고려 중입니다. 당신의 사람들을 위해 FASTA 포맷을 예를 모르고 :병렬로 파일 구문 분석
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
그래서 라인을로 시작하는 '>'식별자 다음과 같은 순서에 대한 식별자를 포함하는 헤더 라인이 있습니다.
전체 파일을 메모리에로드한다고 가정하지만이 데이터를 처리하는 방법을 찾는 데 문제가 있습니다.
문제는 다음과 같습니다. 스레드가 이런 식으로 순서를 자르기 수 있기 때문에 임의의 위치에서 스레드를 시작할 수 없습니다.
행이 서로 의존 할 때 누군가가 병렬로 파일을 파싱 한 경험이 있습니까? 어떤 생각이라도 감사합니다.
http://biostar.stackexchange.com/ – Pierre