다음과 같은 HTML이있는 경우 :xpath를 사용하여 HTML 앵커 태그의 값을 가져올 수 있습니까?
<td class="blah">&nbs;<a href="http://.....">????</a> </td>
???? 가치를 사용하여 xpath? 어떻게 생겼을까요?
다음과 같은 HTML이있는 경우 :xpath를 사용하여 HTML 앵커 태그의 값을 가져올 수 있습니까?
<td class="blah">&nbs;<a href="http://.....">????</a> </td>
???? 가치를 사용하여 xpath? 어떻게 생겼을까요?
왜 XML 구문 분석기를 사용하여 HTML을 구문 분석합니까? 전담 자바 HTML 파서를 사용 하시길 권합니다. 많은 것들이 있지만, 나 자신을 시도하지는 않았습니다.
귀하의 질문에, 그것은 작동하지 않을 것입니다, 나는 그것이 작동하지 않을 것 같아요, 그렇지 않으면 이전에 &nbs;
에 HTML로 구문 분석하려고하면 오류가 발생합니다.
XPath를 사용하려면 일반적으로 HTML이 아닌 XML이 필요하지만 일부 구문 분석기 (예 : PHP에 내장 된 파서)에는 대부분 HTML을 구문 분석하는 편안한 모드가 있습니다.
당신은 <td class="blah">
직접 아이들이 당신이 필요로하는 XPath는이
//td[@class = 'blah']/a
or
//td[@class = 'blah']/a[@href = 'http://...']
이
<a>
를 찾으려면 노드. 이를 반복하고
firstChild
(텍스트 노드로 가정 됨) 및 자식 노드 (1로 간주 됨)의
nodeType
을 확인해야합니다. 그런 다음
firstChild
에 ????가 포함됩니다.
제목은 실제로 당신이 요구하는 것이 아닙니다. 당신이 정말로 원하는 것은'href' 속성이 특정 URL과 같은'a' 요소의 내용을 가져 오는 것입니다 ... 맞습니까? –
맞습니다. – mrblah
xpath에 대해서는 잘 모르지만 Python HTML 파서는 정말 멋지 네요. BeautifulSoup . 자바를 사용하고 있기 때문에 유용하지 않을 수 있습니다. –