BioPython의 Seq 객체 목록이 있는데이 시퀀스 내에서 아미노산 서열 모티브를 검색하려고합니다. 이 시퀀스를 검색하는 가장 좋은 방법은 무엇입니까? 내 검색은 GxxxG와 같은 모티프를 찾는 것이지만 길거나 짧을 수 있지만 첫 번째 G 이후의 다음 G의 첫 번째 인스턴스에서 멈출 수 있습니다. G. * G와 같은 정규 표현식을 사용하면 첫 번째 결과 G 마지막으로 발견 된 아미노산의 수에 상관없이 G.BioPython : Seq 객체 컬렉션에서 모티프를 검색하는 방법
#Some example code
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC
import re
records = Seq("WALLLLFWLGWLGMLAGAVVIIVR", IUPAC.extended_protein)
search = re.search("F.*G", str(records))
print search.group()
# Want FWLG
# Get
FWLGWLGMLAG
무엇 귀하의 예제에서, 사이의 문자 중 하나 이상이있을 필요가있는 경우에 대한 A와 비? 따라서 출력은 적어도 A.B가되고 싶습니다. – Kevin
@Kev 당신은 +1 이상을 사용할 수 있습니다. *가 0 이상입니까? 1 또는 0 (선택 사항) 인 경우 {5}를 5 회 이상 사용하거나 {5,7}을 5 ~ 7 회 사용 할 수 있습니다. –