텍스트 문서에서 토큰을 읽고 특정 키워드를 확인하고 싶습니다. 내가 어떻게 그럴 수 있니? 예를 들어 내 파일은 다음과 같습니다 :파이썬에서 토큰 읽기
<protein id="Q11" name="HUMAN" length="655" crc64="30E1C1D138">
<match id="G3DSA:3.30.160.60" name="ZC2f_H2/iegse_NA-bd" dbname="GE3D" status="T" evd="HMPfm">
<ipr id="IPR013087" name="Zinc finger, H2-type/inrase, D-bindg" tpe="Dain" />
<ln stt="114" end="142" sc="1.0E-8" />
</match>
(내가 첫 번째 줄을 건너 뛰고 GE3D 동일해야합니다 DBNAME을 두 번째 줄에 토큰을 검색하려면이 경우 나는 STT 번호를 저장할. .과 끝 번호)
* 그래서 내가 이런 짓을하지만, 그것은 단지가 될 요구 사항을 만족해야 하나 이상의 수 있기 때문에, 시작과 끝 나에게 한 수를 반환 이유를 모르겠어요 : 를 LXML 가져 오기 연예
에서파일 이름 = 'inQ14591.txt'
F 오픈 (파일 이름, 'RB')와: 당신이 BeautifulSoup
그것을 구문 분석 할 수처럼
root = etree.parse(f)
for ln in root.xpath("/protein/match[@dbname='GE3D']/ln"):
start = ln.get("stt")
end = ln.get("end")
인쇄 (STT)
인쇄 끝
무엇을 시도 했습니까? – 0605002
XML처럼 보입니다. lxml을 사용하여 파서를 작성해 보았습니까? –