Vista 64 비트에서 Python.org 버전 2.7 64 비트를 사용하고 있습니다. 텍스트를 추출하는 데 현재 잘 작동하는 현재 Scrapy 코드가 있지만 웹 사이트의 테이블에서 데이터를 얻는 방법에 대해서는 조금 꼼짝도하지 않습니다. 나는 온라인으로 해답을 찾았지만 여전히 확실하지 않다. 예를 들어, 나는 웨인 루니의 goalscoring 통계이 테이블에 포함 된 데이터 좀하고 싶습니다 :Scrapy를 사용하여 테이블에서 데이터를 추출하려고합니다.
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.utils.markup import remove_tags
from scrapy.cmdline import execute
import re
class MySpider(Spider):
name = "Goals"
allowed_domains = ["whoscored.com"]
start_urls = ["http://www.whoscored.com/Players/3859/Fixtures/Wayne-Rooney"]
def parse(self, response):
titles = response.selector.xpath("normalize-space(//title)")
for titles in titles:
body = response.xpath("//p").extract()
body2 = "".join(body)
print remove_tags(body2).encode('utf-8')
execute(['scrapy','crawl','goals'])
은 무엇 구문에 사용할 필요합니까 :
http://www.whoscored.com/Players/3859/Fixtures/Wayne-Rooney 내가 현재 가지고있는 코드는이가 표 형식의 데이터를 얻기위한 xpath() 문
감사
무엇을 얻으려고합니까? –
@PadraicCunningham 'Wayne Rooney 's Match History :'테이블 아래에 보이는 데이터가 있습니다. ... 온라인에서 일부 xpath 예제를 보았지만 아무 것도 없었습니다. 이 경우에는 아무것도 반환하지 않는 것 같습니다. 페이지 구조를 조사하기 위해 F12 키를 눌렀지만 실제로 무엇을보고 있는지 잘 모르겠습니다. – gdogg371