전자 상거래 사이트 (이 경우 Flipkart)의 웹 페이지에 나열된 모든 제품의 제목을 스크랩하려고합니다. 이제 내가 긁어 모으는 제품은 사용자가 입력 한 키워드에 따라 달라집니다. 나는 제품을 입력 한 경우 일반적인 URL이 생성 'XYZXYZ'이 될 것입니다 : 이제동적 전자 상거래 웹 페이지의 데이터 스크랩
http://www.flipkart.com/search?q=XYXXYZ&as=off&as-show=on&otracker=start
, 템플릿으로이 링크를 사용하여, 나는 기반으로 특정 웹 페이지에 나열된 모든 제품의 제목을 폐기하는 다음 스크립트를 썼다 입력 된 키워드 :
import requests
from bs4 import BeautifulSoup
def flipp(k):
url = "http://www.flipkart.com/search?q=" + str(k) + "&as=off&as-show=on&otracker=start"
ss = requests.get(url)
src = ss.text
obj = BeautifulSoup(src)
for e in obj.findAll("a", {'class' : 'lu-title'}):
title = e.string
print unicode(title)
h = raw_input("Enter a keyword:")
print flipp(h)
그러나 위 스크립트는 None
을 출력으로 반환합니다. 각 단계에서 디버깅을 시도했을 때 requests
모듈이 웹 페이지의 소스 코드를 가져올 수 없다는 것을 발견했습니다. 여기에서 무슨 일이 벌어지고있는 것 같습니까?
당신은 어떤 오류를 확인합니까? – alecxe
아니요, 함수는 None 만 반환합니다. –