Xpath와 함께 Python을 사용하여 Reddit을 다듬습니다. 현재 저는 프론트 페이지에서 일하고 있습니다. 나는 프론트 페이지에서 링크를 추출하여 쉘에 제목을 표시하려고합니다.XPath를 사용하여 하이퍼 링크에서 텍스트 추출
이렇게하려면 Scrapy 프레임 워크를 사용하고 있습니다. 나는 이것을 Scrapy shell 자체에서 테스트하고있다.
내 질문은 다음과 같습니다. <a> ABC </a>
속성에서 텍스트를 추출하려면 어떻게해야합니까? 나는 문자열 "ABC"를 원해. 못 찾겠 어. 다음 표현을 시도했지만 작동하지 않습니다.
response.xpath('//p[descendant::a[contains(@class,"title")]]').extract()
response.xpath('//p[descendant::a[contains(@class,"title")]]/text()')
그들 중 누구도 제대로 작동
response.xpath('//p[descendant::a[contains(@class,"title")]]/@data')
response.xpath('//p[descendant::a[contains(@class,"title")]]/@value')
extract()
을 사용하면 전체 속성 자체를 얻을 수 있습니다. 예를 들어,
ABC
을주는 대신
<a>ABC</a>
이 표시됩니다.
어떻게하면 텍스트 문자열을 추출 할 수 있습니까?
그건 내가 만든 실수 였어! –