TIDY를 사용하여 HTML 파일로 가득 찬 폴더를 정리 한 후 추가 처리를 위해 테이블 내용을 어떻게 추출 할 수 있습니까?HTML 파일 그룹에서 테이블 내용을 추출하는 가장 좋은 방법은 무엇입니까?
답변
은 당신이 원하는 처리의 어떤 종류에 따라 다릅니다. Tidy에게 XML의 일종 인 XHTML을 생성하도록 지시 할 수 있습니다. 즉, 결과에 대해 XSLT 및 XQuery와 같은 일반적인 XML 도구를 모두 사용할 수 있습니다.
Microsoft Excel에서 처리하려는 경우 HTML에서 표를 잘라서 파일에 넣은 다음 Excel에서 해당 파일을 열 수 있습니다. HTML 표를로 변환합니다. 스프레드 시트 페이지 그런 다음 CSV 또는 Excel 통합 문서 등으로 저장할 수 있습니다 (웹 서버에서도이 코드를 사용할 수 있습니다. HTML 표를 반환하지만 Content-Type
헤더를 application/ms-vnd.excel
으로 설정하십시오. Excel이 테이블을 열고 가져 와서 스프레드 시트)
CSV를 데이터베이스에 공급하려면 이전과 같이 Excel로 이동하거나 프로세스를 자동화하려면 XML 탐색 API를 사용하는 프로그램을 작성할 수 있습니다. 테이블 행을 반복하여 CSV로 저장할 수 있습니다. Python의 Elementtree 및 CSV 모듈을 사용하면이 작업을 매우 쉽게 처리 할 수 있습니다.
나는 과거와 같은 것들을 위해 BeautifulSoup를 아주 성공적으로 사용했습니다.
. NET에서 HTMLAgilityPack을 사용할 수 있습니다.
자세한 내용은 StackOverflow의 previous question을 참조하십시오.
HTML 마크 업에서 콘텐츠를 추출하려면 일부 유형의 HTML 구문 분석기를 사용해야합니다. 이를 위해 거기가 많이 있습니다 여기에 귀하의 요구 스위트 수있는 두 가지이다 :
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
제안 사항을 검토 한 후 HtmlUnit을 사용하여 권했습니다.
HtmlUnit을 사용하면 폴더의 각 HTML 파일을 열어서 TABLE 태그로 이동하여 각 열 내용을 쿼리하고 CSV 파일을 만드는 데 필요한 데이터를 추출 할 수있었습니다.
으로 반복 정규 표현식 :
텍스트를 통해 사용- 1. HTML 페이지에서 요소를 추출하는 가장 좋은 방법은 무엇입니까?
- 2. HTML 파일 업로드시 파일 이름을 얻는 가장 좋은 방법은 무엇입니까?
- 3. PHP에서 파일 내용을 읽고 덮어 쓰는 가장 좋은 방법은 무엇입니까?
- 4. 여러 파일 내용을 문자열로로드하는 가장 좋은 방법은 무엇입니까?
- 5. 시트를 추출하는 테이블 디자인을 추출하는 방법은 무엇입니까?
- 6. OLE 컨테이너의 내용을 추출하는 방법은 무엇입니까?
- 7. 다른 DBMS에서 XML 데이터를 추출하는 가장 좋은 방법은 무엇입니까?
- 8. html 양식 개발을위한 가장 좋은 방법은 무엇입니까?
- 9. Outlook 2007에서 이메일 내용을 추출하는 방법은 무엇입니까?
- 10. XPATH의 내용을 기반으로 노드를 추출하는 방법은 무엇입니까?
- 11. Objective-C : NSString에서 하위 문자열을 추출하는 가장 좋은 방법은 무엇입니까?
- 12. 필요한 경우 데이터베이스에서 데이터를 추출하는 가장 좋은 방법은 무엇입니까?
- 13. 자바를 사용하여 zip 파일을 추출하는 가장 좋은 방법은 무엇입니까
- 14. URL을 파싱하여 도메인을 추출하는 가장 좋은 방법은 무엇입니까?
- 15. regexp를 사용하여 url의 호스트 부분을 추출하는 가장 좋은 방법은 무엇입니까?
- 16. Teradata에서 두 테이블의 내용을 비교하는 가장 좋은 방법은 무엇입니까?
- 17. PHP DOM 기능을 사용하여 HTML 파일에서 데이터를 추출하는 가장 좋은 방법은 무엇입니까?
- 18. 리눅스에서 바이오스의 내용을 읽는 가장 좋은 방법은
- 19. 메일에서 시간대를 추출하는 가장 좋은 방법은 Java의 날짜 헤더입니까?
- 20. JQuery를 사용하여 테이블 행을 트래버스하는 가장 좋은 방법은 무엇입니까?
- 21. ASP.net MVC v1.0에서 DataSet의 내용을 표시하는 가장 좋은 방법은 무엇입니까?
- 22. jQuery 정렬 가능 목록의 내용을 유지하는 가장 좋은 방법은 무엇입니까?
- 23. StringIO의 내용을 파일에 쓰는 가장 좋은 방법은 무엇입니까?
- 24. 괄호 안의 내용을 가져 오는 가장 좋은 방법은 무엇입니까? (여보세요)?
- 25. HTML 페이지에서 텍스트 블록을 추출하는 방법은 무엇입니까?
- 26. HTML 파일에서 특정 데이터를 추출하는 방법은 무엇입니까?
- 27. 텍스트 대체를 자동화하는 가장 좋은 방법은 무엇입니까?
- 28. git 저장소에서 트리를 추출하는 가장 좋은 방법은 무엇입니까? 임의의 개정에서 BLOB (파일)을 추출
- 29. MBean의 가장 좋은 방법은 무엇입니까?
- 30. HTML을 빠르게 파싱하는 가장 좋은 방법은 무엇입니까?