0
I과 같은 일부 HTML이 :탐색 HTML 테이블 LXML
: 비슷한 질문을 찾고<html>
<body>
<table cellpadding="0" cellspacing="0" border="0" width="100%">
<tr>
<td align="left" colspan="4">
<!-- BEGIN NEXT PREV LINKS -->
<table cellspacing="2" cellpadding="0" border="0">
<tr>
<td align="left"><font style="color:gray">Previous</font> </td>
<td align="center" colspan="2" nowrap><b>1-100 of 273 employees</b></td>
<td align="right"> <a href="">Next</a></td>
</tr>
<tr>
<td align="left" colspan="2"><font style="color:gray">First Page</font></td>
<td align="right" colspan="2"> <a href="">Last Page</a></td>
</tr>
</table>
<!-- END NEXT PREV LINKS -->
</td>
<td colspan="9" align="right">
<a href="">Add Checked to Favorites</a>
<br>
<a href="">Add Checked to Excluded</a>
</td>
</tr>
<tr>
<td rowspan="2"></td><td rowspan="2"></td> <td rowspan="2" valign="bottom" style="padding-right:5px;"><b><a href=""/></td>
<td rowspan="2" valign="bottom" style="padding-right:5px;"><b><a href="">Position</a></b></td>
<td colspan="2" align="center" valign="bottom" height="16"><b>Ratings</b><br><img src="/images/shim_333333.gif" width="130" height="1" alt="" hspace="5"></td> <td rowspan="2"> </td> <td rowspan="2" valign="bottom" style="padding-right:5px;"><b><a href="">Birth Date</a></b></td>
<td rowspan="2" valign="bottom" style="padding-right:5px;"><b><a href="">States</a></b></td>
<td rowspan="2"> </td><td rowspan="2"></td> <td rowspan="2" colspan="3" align="right" valign="bottom"><a href="">Clear All</a> </td> </tr>
<tr>
<td align="center"><b><a href="">In-State<br>Rating</a></b></td>
<td align="center"><b><a href="">Out of State<br>Rating</a></b></td>
</tr>
<tr>
<td colspan="13" valign="bottom"><img src="/images/shim.gif" width="100%" height="1" alt=""></td>
</tr> <tr>
<td align="right" colspan=13><img src="/images/shim_dddddd.gif" width="100%" height="1" border="0" alt=""></td>
</tr> <tr >
<td></td><td><b style="">X</b></td>
<td nowrap><p><a href="">Cruise, Tom</a> </p></td>
<td nowrap>Actor </td>
<td align="center"><img src="/images/stars_2_sm_green.gif" alt="instate Recommendation Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td align="center"><img src="/images/stars_4_sm.gif" alt="Summary Estimate Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td> </td>
<td nowrap>1948 </td>
<td nowrap>CA</td>
<td></td><td></td>
<td> </td>
<td align="right"><input type="checkbox" name="employee_cb" value="198720" style="height:15px"></td>
</tr> <tr>
<td align="right" colspan=13><img src="/images/shim_dddddd.gif" width="100%" height="1" border="0" alt=""></td>
</tr> <tr >
<td><b style="">X</b></td><td></td>
<td nowrap><p><a href="">Schwarzenegger, Arnold</a> </p></td>
<td nowrap>Governor </td>
<td align="center"><img src="/images/ohuohausd.jpg" alt="instate Recommendation Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td align="center"><img src="/images/ohuohausd.jpg" alt="Summary Estimate Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td> </td>
<td nowrap>No Current Date </td>
<td nowrap>-</td>
<td></td><td></td>
<td> </td>
<td align="right"><input type="checkbox" name="employee_cb" value="61184" style="height:15px"></td>
</tr> <tr >
<td><b style="">X</b></td><td></td>
<td nowrap><p><a href="">Obama, Barack</a> </p></td>
<td nowrap>President </td>
<td align="center"><img src="/images/ohuohausd.jpg" alt="instate Recommendation Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td align="center"><img src="/images/ohuohausd.jpg" alt="Summary Estimate Rating" height="11" width="55" align="middle" hspace="0" vspace="0"></td>
<td> </td>
<td nowrap>No Current Date </td>
<td nowrap>-</td>
<td></td><td></td>
<td> </td>
<td align="right"><input type="checkbox" name="employee_cb" value="225747" style="height:15px"></td>
</tr>
<tr height="15">
<td align="right" colspan="14">
<!-- BEGIN NEXT PREV LINKS -->
<table cellspacing="2" cellpadding="0" border="0">
<tr>
<td align="left"><font style="color:gray">Previous</font> </td>
<td align="center" colspan="2" nowrap><b>1-100 of 273 employees</b></td>
<td align="right"> <a href="">Next</a></td>
</tr>
<tr>
<td align="left" colspan="2"><font style="color:gray">First Page</font></td>
<td align="right" colspan="2"> <a href="">Last Page</a></td>
</tr>
</table>
<!-- END NEXT PREV LINKS -->
</td>
</tr> <tr>
<td colspan="12" valign="bottom" nowrap><br>
<b style="">X</bfdgdfgb style="">X</b>Lorem ipsum dolor sit amet, consectetur adipiscing elit<br>
<b style="c">X</b>dfgfdg<b style="">X</b>Lorem ipsum dolor sit amet, consectetur adipiscing elit<br> <b style="">F</b>: A dsd "<b style="">F</b>Lorem ipsum dolor sit amet, consectetur adipiscing elit<br>
dfgdfg"<b style="">F</b>"Lorem ipsum dolor sit amet, consectetur adipiscing elit<br>
<b style="">E</b>gfhbgdfg"<b style="">E</b>Lorem ipsum dolor sit amet, consectetur adipiscing elit
</td>
</tr><tr><td colspan="20">
<table cellpadding="0" cellspacing="0" border="0" width="100%" align="center">
<tr>
<td colspan="2"><img src="/images/shim.gif" width="100%" height="5" alt=""></td>
</tr>
<tr>
<td valign="top">States: </td>
<td>CA=California; ND=North Dakota</td>
</tr>
</table>
</td></tr>
</table></body>
</html>
, 나는 (테이블은 항상 전체 HTML 코드에 17이라고 지적) 구축 할 수 있었다
data = open("employeetest.htm",'r').read()
root = lh.fromstring(data)
rows = root.xpath("//table")[17].findall("tr")
data = list()
for row in rows:
data.append([c.text_content() for c in row.getchildren()])
print data
매우 복잡한 목록을 생성합니다. 내 최종 목표는 테이블에 포함 된 모든 정보는 이상한 요소를 많이 생산 단지 그러나
[['Cruise, Tom', 'Actor', '1948', 'CA'], ['Schwarzenegger, Arnold', 'Governor', 'No Current Date', '-'], ...]
를 얻는 것입니다. 나는
\xa0
결과를 하나의 공간으로 대체하여 청소할 수 있음을 안다. 나는 이것을 어떻게 더 많이 탐색해야할지 모르겠습니다. 감사!
데이터는 모든 테이블에없는'를 ... 수행 또한 무엇'에 나타내는 사용 파라미터 nowrap 속성과 완전히 하나 개의 속성이 TRS 너의 기대되는 결과? –
필자는 실수라고 생각하지만, '
그래, 여는 태그를 놓 쳤어. 그래서 게시 된 것에서 당신이 원하는 것은 귀하의 질문에있는 세 가지 하위 목록입니까? –
답변
, 당신이 찾고 검색 범위를 좁힐 수 있습니다이 함께 최종 관련 결과를 얻기 위해 약간의 조작이 필요합니다
이출력 :
출처
2016-06-08 20:25:51
감사! 이것은 꽤 잘 돌아갔다. 다른 사람들이이 정보를 필요로하고 정보를 필요로 할 때를 대비하여 인코딩을 변경해야했습니다. – sundorer
당신은 HTML 문서를 트래버스하고 더 세련된 XPath를 얻어야 할 것입니다. 또한 두 개의 XPath 표현식을 필요로하는 여러 요소에서 관련 데이터의 문제에 직면합니다.
...
이 예상 출력에 있어야하지만, 처음 세 개의 하위 목록에서 데이터를 얻기 위해 무엇 확실하지출처
2016-06-08 19:53:21 Parfait
관련 문제