2017-12-20 6 views
0
와 HTML로 DOCX 변환 할 수 없습니다

나는 거대한 사용하여 시도했다 : 내가 HTML을하지 않는파이썬

import mammoth 

result = mammoth.convert_to_html("MyDocument.docx") 
print (result.value) 

하지만,이 이상한 코드 :

kbW7yqZoo4h9pYM6yBxX1QFx2pCoPYflXfieIPbtqpT913Vk7OzcZdEk3eO7TbWjvZNTGilsfmRrPwDvB[...] 

또한했습니다 docx2html을 사용하려고했지만 설치할 수 없습니다.

SyntaxError: Missing parentheses in call to 'print' 

답변

0

documentation에 명시된 바와 같이 : 나는 pip install docx2html를 실행하면이 오류를 얻을

To convert an existing .docx file to HTML, pass a file-like object to mammoth.convert_to_html. The file should be opened in binary mode. For instance:

import mammoth 

with open("document.docx", "rb") as docx_file: 
    result = mammoth.convert_to_html(docx_file) 
    html = result.value # The generated HTML 
    messages = result.messages # Any messages, such as warnings during conversion 
+0

감사합니다, 나는 첫 번째 코드를 테스트 한 내가 html''의 값을 인쇄 할 때 나는 다음과 같은 응답을 얻을 : 'bxPdWskbW7yqZoo4h9pYM6yBxX1QFx2pCoPYflXfieIPbtqpT913Vk7OzcZdEk3eO7TbWjvZNTGilsfmRrPwDvfiP8AFjw54d8SeF/HXgW58bReK9d0u403w가 [...]' 내가 필요로하는 HTML 태그를 . 그게 가능하니? – yisus

0

Mammoth .docx to HTML converter

맘모스는 생성 된 것과 같은 문서를 .DOCX 변환하도록 설계 Microsoft Word로 변환하여 HTML로 변환하십시오. Mammoth는 문서의 의미 정보를 사용하고 다른 세부 정보는 무시함으로써 간단하고 깨끗한 HTML을 제작하는 것을 목표로합니다. 예를 들어, Mammoth는 제목의 스타일 (글꼴, 텍스트 크기, 색상 등)을 정확하게 복사하기보다는 스타일 제목 1이있는 단락을 h1 요소로 변환합니다.

.docx에서 사용하는 구조와 HTML 구조간에 큰 불일치가 있습니다. 이는 복잡한 문서의 경우 변환이 완벽하지 않을 수 있음을 의미합니다. 맘모스는 스타일을 사용하여 의미 론적으로 문서를 마크 업할 때 가장 잘 작동합니다.

다음 기능은 현재 지원됩니다

  • 제목을.

  • 목록.

  • 자신의 docx 스타일에서 HTML로 사용자 정의 가능한 매핑. 예를 들어, 적절한 스타일 매핑을 제공하여 WarningHeading을 h1.warning으로 변환 할 수 있습니다.

  • 표. 테두리와 같은 표 자체의 서식은 현재 무시되지만 텍스트의 서식은 문서의 나머지 부분과 동일하게 처리됩니다.

  • 각주와 각주.

  • 이미지.

  • 굵게, 기울임 꼴, 밑줄, 취소 선, 위 첨자 및 아래 첨자.

  • 링크.

  • 줄 바꿈

  • 텍스트 상자. 텍스트 상자의 내용은 텍스트 상자가 포함 된 단락 뒤에 나타나는 별도의 단락으로 처리됩니다.

  • 의견.

설치

pip install mammoth 

기본 변환

HTML에 대한 기존 .DOCX 파일을 변환하려면 mammoth.convert_to_html하는 파일 - 류의 객체를 전달합니다. 파일은 2 진 모드로 열어야합니다. 예 :

import mammoth 

with open("document.docx", "rb") as docx_file: 
    result = mammoth.convert_to_html(docx_file) 
    html = result.value # The generated HTML 
    messages = result.messages # Any messages, such as warnings during conversion 

mammoth.extract_raw_text를 사용하여 문서의 원시 텍스트를 추출 할 수도 있습니다. 이렇게하면 문서의 모든 서식이 무시됩니다. 각 단락 다음에 두 개의 개행이옵니다.

with open("document.docx", "rb") as docx_file: 
    result = mammoth.extract_raw_text(docx_file) 
    text = result.value # The raw text 
    messages = result.messages # Any messages 
+0

덕분에, 나는 첫 번째 코드를 테스트 한 내가 html''의 값을 인쇄 할 때 나는 다음과 같은 응답을 얻을 : 'bxPdWskbW7yqZoo4h9pYM6yBxX1QFx2pCoPYflXfieIPbtqpT913Vk7OzcZdEk3eO7TbWjvZNTGilsfmRrPwDvfiP8AFjw54d8SeF/HXgW58bReK9d0u403w [...]' 내가 HTML 태그가 필요합니다. 그게 가능하니? 두 번째 코드를 사용하면 텍스트를 가져올 수 있지만 HTML 태그가 여전히 필요합니다. S – yisus