2014-08-31 5 views
-3

이 코드에 무엇을 추가해야하는지 파악하려고합니다. url 소스를 읽은 후에 태그 사이의 텍스트를 모두 제거한 다음 결과를 인쇄해야합니다.URL에서 특정 텍스트를 가져 오는 코드가 필요합니다.

import urllib.request 

req = urllib.request.Request('http://myurlhere.com') 
response = urllib.request.urlopen(req) 
the_page = response.read() 
print (the_page) 

답변

0

HTML 파서가 필요합니다.

예 사용 BeautifulSoup (가 지원하는 파이썬 3.x의) :

import urllib.request 
from bs4 import BeautifulSoup 

req = urllib.request.Request('http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA') 
response = urllib.request.urlopen(req) 
soup = BeautifulSoup(response) 
print(soup.find('td', id='ctl00_PlaceHolderMain_PermitDetailList1_owner').div.table.text) 

인쇄 : 확인

SNB HOTEL INC2607 WILDE LAKE BLVD PENSACOLA FL 32526 
+0

아니라 내가 소유자의 제목이 여러 페이지 떨어져 정보를 끌어하려고 소유자 다음에는 인쇄 할 필요가있는 단락이 소유자 뒤에 있습니다. 주위에 td 태그가 있습니다. – shoka69

+0

@ shoka69 질문에 HTML 코드의 관련 부분을 포함 시키려면 해결책을 제공하거나 웹 사이트 링크를 게시하십시오. – alecxe

+0

http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA 여기에 소유자가 – shoka69

관련 문제