일부 데이터의 경우 웹 페이지를 다운로드하여 TSV 형식으로 스크랩합니다. TSV 데이터 주변에는 원하지 않는 HTML이 있습니다.팬더를 사용하여 다른 곳에서 이미로드 된 CSV를 구문 분석하려면 어떻게해야합니까?
웹 페이지의 html을 다운로드하고 beautifulsoup를 사용하여 원하는 데이터를 긁어 냈습니다. 그러나 지금은 TSV 데이터를 메모리에 저장했습니다.
이 TSV 데이터를 팬더 메모리에서 어떻게 사용할 수 있습니까? 내가 찾을 수있는 모든 방법은 이미 긁어 낸 데이터가 아닌 파일이나 URI에서 읽는 것 같습니다.
텍스트를 다운로드하고 파일에 쓰고이를 다시 복제하고 싶지 않습니다. read_csv
같은
#!/usr/bin/env python2
from pandas import pandas as p
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "URL"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
# pre is the tag that the data is within
tab_sepd_vals = soup.pre.string
data = p.LOAD_CSV(tab_sepd_vals)
process(data)
'pandas.read_html'로 직접 읽을 수 있습니까? http://pandas.pydata.org/pandas-docs/dev/io.html#html – joris
아니요, 왜냐하면 pandas.read_html은 bs4에 의존하고 python2를 사용하고 있습니다. – Squidly