Java에서 XPath를 사용하여 일부 HTML을 구문 분석하려고합니다. 다음과 같은 HTML을 고려하십시오.XPath로 태그 지정 및 태그 지정되지 않은 데이터 모두 사용하기
<td class="postbody">
<img src="...""><br />
<br />
<b>What is Blah?</b><br />
<br />
Blah blah blah
<br />
"멍청이란 무엇인가"는 유용하게 b 태그 안에 들어 있으므로 쉽게 파싱 할 수 있습니다. 하지만 "blah blah blah"는 공개되어 있으므로 상위 노드에서 text()를 호출하면됩니다.
나는이 작업을 순서대로 수행하고 img를 내린 다음 굵은 텍스트를 누른 다음 본문 텍스트를 입력해야합니다. 순서대로 끝나는 것이 중요합니다 (두 번 통과하는 방법을 제안 할 수 있다면 순서대로 처리 할 필요가 없습니다).
위의 내용을 Java XPath 노드에 포함시켜야한다면, 어떻게해야할까요?
좋은 질문, +1. 간단하고 순수한 XPath 솔루션에 대한 내 대답을보십시오. –