2015-01-15 4 views
1

나는 웹 페이지 (zeit online, german newspaper)에서 여러 기사를 추출하려고 노력 해왔다. 나는 기사 목록에서 기사를 다운로드하고 싶다. 그래서 나는 필요 없다. URL에 대한 페이지를 크롤링합니다.신문으로 여러 URL에서 기사 다운로드하기

python을위한 신문 패키지는 단일 페이지의 내용을 분석하는 데 훌륭한 역할을합니다. 내가해야 할 일은 모든 기사가 다운로드 될 때까지 자동으로 URL을 변경하는 것입니다. 불행히도 제한적인 코딩 지식을 가지고 있으며이를 수행 할 방법을 찾지 못했습니다. 아무도 나를 도울 수 있다면 매우 감사 할 것입니다. 내가하려고하는 일의

하나는 다음이었다

import newspaper 
from newspaper import Article 

lista = ['url','url'] 


for list in lista: 

first_article = Article(url="%s", language='de') % list 

first_article.download() 

first_article.parse() 

print(first_article.text) 

it returned the following error: unsupported operand type for %:'article' and 'str' 

내가 덜 사과와 바나나를 포함하는 쉬운 방법을있을 기대할 수 있지만,이, 일을 할 것으로 보인다.

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

import newspaper 
from newspaper import Article 

lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht'] 

apple = 0 
banana = lista[apple] 


while apple <4 : 

first_article = Article(url= banana , language='de') 

first_article.download() 

first_article.parse() 

print(first_article.text).encode('cp850', errors='replace') 

apple += 1 
banana = lista[apple] 

답변

0

당신은 예외를 얻을

잘못된 변수를 채우는하고 9 호선에 당신이해야하기 때문에

it returned the following error: unsupported operand type for %:'article' and 'str'

:

first_article = Article(url="%s" % list, language='de')

을하고 여기에 전체 코드입니다 :

import newspaper 
from newspaper import Article 

lista = ['url','url'] 


for list in lista: 

    first_article = Article(url="%s" % list, language='de') 

    first_article.download() 

    first_article.parse() 

    print(first_article.text) 
관련 문제