다음은 "제목"을 연관시켜야하는 html 문서의 일부입니다 (예 : FILE_BYTES_WRITTEN - 첫 번째 항목의 text() 항목이 성공한 상태입니다.XPath 축을 지원하는 Java Html 파서?
/td[text()='FILE_BYTES_WRITTEN']/following-sibling::td
doc 후 조각 :
다음 XPath는 파이썬 LXML에서 잘 작동
<td>HDFS_BYTES_READ</td>
<td align="right">4,825</td>
<td align="right">0</td>
<td align="right">4,825</td>
</tr>
<tr>
<td>FILE_BYTES_WRITTEN</td>
<td align="right">415,881</td>
<td align="right">48,133</td>
<td align="right">464,014</td>
</tr>
<tr>
<td>HDFS_BYTES_WRITTEN</td>
<td align="right">98,580,205</td>
<td align="right">2,010</td>
<td align="right">98,582,215</td>
</tr>
하지만 자바에서이 작업을 수행하려고 할 때 덜 성공을 데. 이것을 지원할 수있는 java html 파서가 있는지 확실하지 않습니다. 현재 HtmlCleaner를 사용 중입니다.