2017-12-07 6 views
1

저는 계속해서이 AttributeError에 대한 해결책을 찾고 있었으며 '_all_strings'으로 거래를 찾을 수 없었습니다.왜 나는 (비정상적으로) 비정상적인 AttributeError가 발생합니까? 'bytes'객체에 '_all_strings'속성이 없습니다? 주위를 둘러 볼 방법이 있습니까?

웹 크롤러를 코딩하고 싶지만 페이지의 상단과 하단에는 많은 말도 안되는 소리가 있습니다. 그래서 HTML 코드를 정리하여 맨 위에있는 원치 않는 노이즈를 제외시킵니다. 및 웹 페이지 하단.

나는 아래의 코드를 실행하면

, 특히, 그것의 마지막 줄에, 나는 AttributeError 수 :

from __future__ import division 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 

textSource = 'http://celt.ucc.ie/irlpage.html' 
html = urlopen(textSource).read() 
raw = BeautifulSoup.get_text(html) 

이 전체 역 추적 내가 얻을 수있다 : 사람이 발생

Traceback (most recent call last): 
    File "...Crawler_Celt_Namelink_Test.py", line 7, in <module> 
    raw = BeautifulSoup.get_text(html) 
    File "...Python\Python35\lib\site-packages\bs4\element.py", line 950, in get_text 
    return separator.join([s for s in self._all_strings(
AttributeError: 'bytes' object has no attribute '_all_strings' 

했습니다 전에 오류? 아니면 아무도 내가 그것을 극복 할 수있는 방법을 제안 할 수 있습니까? 당신이 BeautifulSoup docs 볼 때

답변

1

는이 같이 사용됩니다

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
textSource = 'http://celt.ucc.ie/irlpage.html' 
html = urlopen(textSource).read() 

soup = BeautifulSoup(html, 'html.parser') 

raw = BeautifulSoup.get_text(soup) 
관련 문제