여기에 구문 분석하려고하는 HTML이 있습니다.고유하지 않은 표의 html에서 문자열 검색
<TD>Serial Number</TD><TD>AB12345678</TD>
데이터를 구문 분석하기 위해 정규 표현식을 사용하려고합니다. 내가 BeautifulSoup에 대해 들었지만, 같은 테이블 매개 변수를 사용하는 페이지에 약 50 개의 항목이 있으며 ID 번호가없는 항목은 없습니다. 고유 ID에 가장 가까운 식별자는 필요한 데이터 이전의 셀에있는 데이터입니다.
serialNumber = re.search("Serial Number</td><td>\n(.*?)</td>", source)
원본은 단순히 urllib을 사용하여 움켜 잡은 페이지의 소스 코드입니다. 두 번째와 일련 번호 사이에 html에 새로운 줄이 있지만 중요한지 확실하지 않습니다.
정규식은 전통적으로 HTML을 구문 분석에 대한 경솔한 솔루션입니다 정규식에 대한 자세한 설명을 찾을 수 있습니다. BeautifulSoup을 사용하고 있어야하며, 테이블로 내려 가면서 데이터를 가져 오는 경우에만 (조건). 그렇지 않으면 다음 테이블로 가십시오. 당신은 [scrapy] (http://scrapy.org/)를 시도하고 정규식과 비슷한 것을 일반적으로 포함하는 거미를 작성하는 데 사용할 수 있습니다 – inspectorG4dget
필수 링크 : http://stackoverflow.com/questions/1732348/regex- match-open-tags-except-xhtml-self-contained-tags – Amadan