2011-07-06 6 views
3

html 테이블에 많은 데이터를 표시하는 웹 사이트가 있습니다. 그들은 약 500 페이지가 있도록 데이터를 페이징했습니다.html 페이지에서 csv 만들기

Windows에서이 테이블의 데이터를 가져 와서 CSV로 다운로드하는 가장 편리한 방법은 무엇입니까?

기본적으로 나는 이런 식으로 뭔가를 수행하지만 C#에서의 쓰기 overkilling하는 스크립트를 작성해야하고 그 웹 경험의 사용을 가진 사람이 다른 솔루션을 찾고 있어요 :

for(i=1 to 500) 
    load page from http://x/page_i.html; 
    parse the source and get the data in table with id='data' 
    save results in csv 

감사합니다!

답변

0

화면 스크래핑 응용 프로그램을 한 번 실행했는데 BeautifulSoup이 매우 유용하다는 것을 알았습니다. 이를 파이썬 스크립트에 쉽게 넣을 수 있으며 찾고있는 특정 ID로 모든 태그를 구문 분석 할 수 있습니다. 내가 생각할 수있는

0

가장 쉬운 비 C#을 방법은 다음 페이지를 다운로드 Wget를 사용하여 XML/XHTML로 변환 HTMLTidy를 실행 한 다음 XSLT와 CSV로 결과 XML을 변환하는 것입니다

( MSXSL.exe으로 실행)

간단한 배치 파일과 기본 XPath 선택기가있는 XSLT를 작성해야합니다.

C#에서 더 쉽게 수행 할 수 있다고 생각되면 SgmlReader을 사용하여 HTML DOM을 읽고 XPath 쿼리를 사용하여 데이터를 추출 할 수 있습니다. 약 20 줄을 넘지 않아야합니다.