2013-12-16 2 views
-2

긁어 :이다BeautifulSoup로 HTML 나는 웹 사이트에서 텍스트를 긁어하기 위해 노력하고있어, 지금까지 나는 다음과 같은 코드를 작성

import urllib, urllib2, cookielib, re, io, sys 
from bs4 import BeautifulSoup 

cj = cookielib.CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 

resp = opener.open('http://www.bancuri.net/formular_mail.aspx?ID=3181').read() 
soup = BeautifulSoup(resp) 
for tr in soup.find_all('p'): 
    tds = tr.find_all('justify') 
    for x in tds: 
     print x 

내가 긁어 필요한 데이터를 :

Categoria: Bărbaţi şi femei 
Bancul: O femeie către un bărbat la o petrecere: 
- Dumneata tare semeni cu al treilea soţ al meu. 
- Dar de cîte ori aţi fost căsătorită? 
- De două ori pînă acum. 

그러나 제대로 작동하지 않으며 다음과 같은 결과가 나타납니다.

C:\Users\admin\Desktop>bancuri.py 
C:\Users\admin\Desktop> 

어떤 문제일지도 모릅니다.

+0

. 액세스하려면 사용자 이름과 암호가 필요합니다. – Joe

+0

아니요, 액세스하려면 사용자 이름이나 비밀번호가 필요 없습니다! – kingcope

+0

다른 사람들이 더 쉽게 나를 도와 줄 수 있도록 게시물을 편집하여 출력물을 추가하십시오. – Rubens

답변

1

나는 cookielib에 대해 많이 알지 못하지만, 코드에 가져온 모듈 urllib2만을 사용하여 페이지를 검색하고 있습니다.

첫째,이 :

resp = urllib2.urlopen('http://www.bancuri.net/formular_mail.aspx?ID=3181').read() 

그리고 당신은 필요한 것을 검색 할 : 그 URL 보았다

>>> soup = BeautifulSoup(resp) 
>>> text = soup.find('p').get_text() 
>>> print text 

Categoria: Bărbaţi şi femei 
Bancul: 

O femeie către un bărbat la o petrecere: 

- Dumneata tare semeni cu al treilea soţ al meu. 

- Dar de cîte ori aţi fost căsătorită? 

- De două ori pînă acum. 
+0

역 추적 (가장 최근 통화 마지막). 텍스트 파일 "", 라인 1 = soup.find ('P') get_text() AttributeError : 'NoneType'개체가 어떤 속성 'get_text' – kingcope

+0

가 있습니까이 없습니다 같은 페이지를 긁어 냈을거야? 'print soup'는 무엇을 산출합니까? – aIKid

+0

http://pastebin.com/PXWPNC5b – kingcope

관련 문제