2014-04-01 3 views
2

웹 사이트에서 일부 데이터를 추출하고 싶습니다. 내 데스크톱의 soccerway.html이라는 파일에 '웹 페이지, HTML 전용'으로 저장했습니다. BeautifulSoup를 사용하는 중에 오류가 발생했습니다.

IOError: [Errno 2] No such file or directory: 'soccerway.html' 

가 어떻게이 문제를 해결할 수 있습니다 : 나는 다음과 같은 오류가

from bs4 import BeautifulSoup 
soup=BeautifulSoup(open("soccerway.html")) 

:

는 그 후 나는 IPython 노트북을 사용하여 다음 명령을 썼다?

+0

이것은 물론, BeautifulSoup로 함께 할 수 없다. 'open()'호출은 어느 쪽이든 작동하지 않습니다. –

+1

절대 경로를 사용해야합니다. 스크립트의 현재 작업 디렉토리가 데스크탑 폴더가 아닙니다. –

+0

더 나은 여전히, 페이지를 다운로드하려면 * Python *을 사용하십시오 .. –

답변

1

페이지를 수동으로 저장할 필요가 없습니다.

from bs4 import BeautifulSoup 
from urllib2 import urlopen 

soup = BeautifulSoup(urlopen("http://my_site.com/mypage")) 

예 : 당신이 필요로하는 HTML 소스를 얻을 수 urllib2를 사용

>>> from bs4 import BeautifulSoup 
>>> from urllib2 import urlopen 
>>> soup = BeautifulSoup(urlopen('http://google.com')) 
>>> soup('a') 
[<a class="gb1" href="http://www.google.com/imghp?hl=en&amp;tab=wi">Images</a>, 
... 
] 
+0

감사합니다 @alecxe! 문제가 무엇인지 발견하고 해결했습니다. 그럼에도 불구하고 이것은 꽤 산뜻합니다. 나는 그것도 간다! – user3486076

+0

@ user3486076 확실하게, 나는 그 대답이 당신의 문제에 대한 직접적인 해결책을 제안하지 않는다는 것을 이해하지만 훨씬 간단한 해결책을 제안한다. – alecxe

+0

OP 질문으로 돌아 가기 : 파일을로드하여 어떻게이 작업을 수행합니까? 그리고 예, 그것은 URL로 할 수 있습니다 -하지만 파일은 어떻습니까? –

관련 문제