BeautifulSoup을 사용하여 this data table의 첫 번째와 세 번째 열을 추출하려고합니다. HTML을 보면 첫 번째 열은 <th>
태그입니다. 관심있는 다른 열은 <td>
태그입니다. 어쨌든, 나가 나가기 수 있던 모두는 꼬리표를 가진 란의 명부이다. 그러나, 나는 그 텍스트를 원한다.BeautifulSoup을 사용하여 테이블에서 선택된 열 추출하기
table
은 이미 목록이므로 findAll(text=True)
을 사용할 수 없습니다. 다른 양식의 첫 번째 열의 목록을 가져 오는 방법을 모르겠습니다.
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table
은 행 기반은 (비록 잘못 될 수있다). 행을 반복하고 해당 열을 추출하여 원하는 데이터 구조에 추가하여 근사치를 계산할 수 있다고 상상해보십시오. – RocketDonkey
나는 그것을 시도하지만, 여전히 텍스트를 꺼낼 수 없었다. 나는 그 부분을 포함하도록 나의 대답을 업데이트 할 것이다. 아마 더 쉬운 방법 일 것입니다. – mac389