2012-07-11 3 views
2

여기 웹 사이트를 긁어 내려고하고 있습니다 : ftp://ftp.sec.gov/edgar/daily-index/. 아래에 표시된 코드를 사용하십시오.BeautifulSoup이 (가) <a> 태그를 찾을 수 없습니다.

from bs4 import BeautifulSoup 
import urllib.request 
html = urllib.request.urlopen("ftp://ftp.sec.gov/edgar/daily-index/") 
soup = BeautifulSoup(line, "lxml") 
soup.a # or soup.find_all('a') neither of them works 
#return None. 

도와주세요. 정말 실망합니다. 내 의혹은 그 꼬리표가 문제를 일으키는 것입니다. 사이트의 HTML은 잘 형성되어있어 (매칭 된 태그), BeautifulSoup이 아무 것도 찾지 않는 이유에 대해 분실했습니다. 감사합니다

+1

그리고 그 URL에서 HTML을 가져 오는 이유는 무엇입니까? –

답변

5

ftp://ftp.sec.gov/edgar/daily-index/ URL은 HTML 페이지가 아닌 FTP 디렉토리로 연결됩니다.

브라우저은 FTP 디렉토리 내용을 기반으로 HTML을 생성 할 수 있지만 urllib.request과 함께 해당 자원을로드하면 서버에서 HTML을 보내지 않습니다.

대신 ftplib module을 직접 사용하여 디렉토리 목록을 읽거나 urlopen(...).read()의 반환 값을 먼저 확인하십시오.

관련 문제