2011-09-20 2 views
3
내가 읽고 정말 단일 파일 웹 페이지가 내가 그들을 구문 분석 확인 할 수 있도록 내가 모든 태그의 의미를 알아 내려고 노력하고 있어요

태그 어딘가에 mhtml 파일에 대한 의미가있는 마스터 목록이 있습니까?

This document is a Single File Web Page, also known as a Web Archive file. 

아래 볼 수 있습니다 XLS 파일에서 데이터를 추출하려고

올바르게 lxml을 사용합니다. 여기 예를 들어

는 태그의 예는 다음과 같습니다

<th class=3Dtl colspan=3D1 rowspan=3D2 

내가 그 것이다 가정을 만드는 중이라서 만약 내가 파악하려고 시도와 내가 놀겠다는 거하고있는 몇 가지 파일 작업의 성공을 겪고 있지만 나중에 나를 따라 오려고 돌아와. 따라서 이러한 태그와 그 의미의 목록은 훌륭합니다.

답변

0

Microsoft Word에서 MHTML을 생성하는 경우 이는 아마도 WordprocessingMLHTML4 태그의 조합 일 것입니다. 에 WordprocessingML 문서의

최상위 요소는 다음과 같습니다

SmartTagType element describes a Smart Tag type used in the document. 
DocumentProperties element contains Office Document Properties. 
CustomDocumentProperties element contains Custom Office Document Properties. 
schemaLibrary element defines a collection of schemas that comprise a document's schema library. 
fonts element (wordDocumentElt complexType) contains font information 
frameset element (wordDocumentElt complexType) contains HTML Frameset definitions. 
styles element (wordDocumentElt complexType) contains style definitions. 
divs element contains HTML DIV information. 
shapeDefaults element contains drawing defaults. 
docOleData element contains supplemental data containing storages for OLE objects. 
docSuppData element contains supplemental data containing toolbar customizations, envelope data, and the Microsoft Visual Basic project. 
docPr element contains document options. 
shapeDefaults element contains the wrapper representing the shape defaults. 
bgPict element contains background picture information. 
body element contains the document body. 

그러나, 간단한 WordprocessingML의 문서는 다섯 가지 요소 (단일 네임 스페이스)로 구성되어 있습니다. 다섯 가지 요소는 다음과 같습니다.

wordDocument element: The root element for a WordprocessingML document. 
body element: The container for the displayable text. 
p element: A paragraph. 
r element: A contiguous set of WordprocessingML components with a consistent set of properties. 
t element: A piece of text. 
관련 문제