2008-09-16 7 views

답변

1

은 당신이 원하는 처리의 어떤 종류에 따라 다릅니다. Tidy에게 XML의 일종 인 XHTML을 생성하도록 지시 할 수 있습니다. 즉, 결과에 대해 XSLT 및 XQuery와 같은 일반적인 XML 도구를 모두 사용할 수 있습니다.

Microsoft Excel에서 처리하려는 경우 HTML에서 표를 잘라서 파일에 넣은 다음 Excel에서 해당 파일을 열 수 있습니다. HTML 표를로 변환합니다. 스프레드 시트 페이지 그런 다음 CSV 또는 Excel 통합 문서 등으로 저장할 수 있습니다 (웹 서버에서도이 코드를 사용할 수 있습니다. HTML 표를 반환하지만 Content-Type 헤더를 application/ms-vnd.excel으로 설정하십시오. Excel이 테이블을 열고 가져 와서 스프레드 시트)

CSV를 데이터베이스에 공급하려면 이전과 같이 Excel로 이동하거나 프로세스를 자동화하려면 XML 탐색 API를 사용하는 프로그램을 작성할 수 있습니다. 테이블 행을 반복하여 CSV로 저장할 수 있습니다. Python의 Elementtree 및 CSV 모듈을 사용하면이 작업을 매우 쉽게 처리 할 수 ​​있습니다.

2

나는 과거와 같은 것들을 위해 BeautifulSoup를 아주 성공적으로 사용했습니다.

1

제안 사항을 검토 한 후 HtmlUnit을 사용하여 권했습니다.

HtmlUnit을 사용하면 폴더의 각 HTML 파일을 열어서 TABLE 태그로 이동하여 각 열 내용을 쿼리하고 CSV 파일을 만드는 데 필요한 데이터를 추출 할 수있었습니다.

관련 문제