2013-02-13 2 views
1

저는 약 500 개의 단백질 시퀀스를 fasta 포맷으로 가지고 있습니다. blastp 검색에서 얻었습니다. 이 서열들로부터 단백질 이름, 유기체, Uniprot ID, 가능하다면 단백질 패밀리가 필요하므로 그 정보를 가지고 테이블을 만들 수 있습니다.fasta 시퀀스에서 테이블 만들기,

파이썬을 사용하여 수행 할 수있는 방법이 있습니까? 일부 기능 Uniprot와 comunicate? fasta 헤더에서 정보를 어떻게 파싱 할 수 있습니까?

답변

4

FASTA 파서가있는 Biopython을 살펴 봐야합니다. 구문 분석 후 pandasDataFrame을 사용하여 테이블을 작성할 수 있습니다. 예제 데이터 스 니펫이 없으면 더 많은 thourogh 답을 제공하기가 어렵지만 약 5 줄의 코드로 수행 할 수 있습니다.

from Bio import SeqIO 
with open("example.fasta", "rU") as handle: 
    print list(SeqIO.parse(handle, "fasta")) 
관련 문제