다소 복잡한 XPath 문제가 발생했습니다. 웹 페이지 (나는 Imgur을 사용하고 텍스트를 대체)의 부분이 HTML을 고려XPath 선택 이미지 링크 - img src의 부모 href 링크 (존재하는 경우에만), else select img src link
<a href="//i.imgur.com/ahreflink.jpg" class="zoom">
<img class="post-image-placeholder" src="//i.imgur.com/imgsrclink.jpg">
</img>
</a>
내가 먼저 img
태그 문서와 그들의 src
ES 해당 찾는 검색 할. 다음으로, img src
링크에 이미지 파일 확장자 (.jpeg, .jpg, .gif, .png)가 포함되어 있는지 확인하고 싶습니다. 이미지 확장명이 포함되어 있지 않으면 가져 오지 마십시오. 이 경우 이미지 확장자가 있습니다. 이제 우리가 원하는 링크를 찾아야합니다. parent href
이 존재하므로 해당 링크를 가져와야합니다.
는 결과 원하는 : //i.imgur.com/ahreflink.jpg
하지만 지금의이 parent href
이 존재하지 않는 가정 해 봅시다 :
<a name="missing! oh no!">
<img class="post-image-placeholder" src="//i.imgur.com/imgsrclink.jpg">
</img>
</a>
원하는 결과 :이 XPath를 구축 가야합니까 어떻게 //i.imgur.com/imgsrclink.jpg
를? 도움이된다면 XPath로 Python (Scrapy)도 사용하고 있습니다. 그래서 문제가 분리되어야한다면, 파이썬도 사용할 수 있습니다.
지금까지 시도한 적이 있습니까? –
나는 링크의 이미지 확장 기능을 점검하는 부분에만 들었지만 어떤 링크를 잡을 지 선택하는 방법에 대해서는 혼란 스러웠다. – dtgee
XPath를 사용하여 전체적으로 결과를 얻고 싶습니까? 아니면 사용중인 스크립팅 언어를 사용하여 일부 논리를 구현할 수 있습니까? –