2016-07-29 8 views
1

requestsbs4을 사용했습니다. 서클에서 나는 모든 '수프'를 얻을 때 마지막 '수프'만 맞는 것을 알았습니다. 다른 '수프'는 HTML 소스와 다릅니다. 도와주세요. 감사.웹 크롤러 (파이썬으로 작성)

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    print addr 
    st = [] 
    st1 = [] 
    r2 = requests.get(addr) 
    soup2 = bs4.BeautifulSoup(r2.text,"lxml") 
    print soup2 

답변

0

요청 객체는 사이트의 모든 내용이 내용 매개 변수를 가지고 있으며, 당신은 BS4

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    r2 = requests.get(addr) 
    content = r2.content 
    soup2 = bs4.BeautifulSoup(content) 
    print soup2 
를 사용하여 분석 할 수