div의 내용을 추출 하시겠습니까?

어떻게 BS4에 DIV의 내용을 추출 할 :div의 내용을 추출 하시겠습니까?

>>> Doc 
<div class="document"> 
<p>Text.</p> 
<p>More text</p> 
</div> 

>>> type(Doc) 
bs4.element.Tag

나는

<p>Text.</p> 
<p>More text</p>

출처

2013-06-25 Adobe

사용 .contents 싶어 :

>>> Doc = soup.find('div', {'class': 'document'}) # assuming soup is your main content 
>>> for i in [x for x in Doc.contents if x != '\n']: 
...  print i 
... 
<p>Text.</p> 
<p>More text</p>

출처

2013-06-25 11:40:20 TerryA

죄송합니다 - 아마도 내가 말했음에 틀림 없으나 div 아래에는 임의의 복잡한 html : 테이블, 목록 등이있을 수 있습니다. – Adobe

@Adobe 그래서 div 태그의 전체 내용을 인쇄 하시겠습니까? – TerryA

예 :'

CONTENTS

'->'CONTENTS'. – Adobe

이 사업부의 단지 전체 내용을 얻으려면을 어떤 요소가 포함되어 있는지에 관계없이 soup.find("div").prettify()을 사용하면 효과적으로 내부 HTML을 가져올 수 있습니다.

출처

2013-06-25 11:44:39 dav

나는 이것을 사용하여 utf8에 문제가 있습니다. 필요에 따라 div를 제거하면 얻을 수 없습니다. – Adobe

div의 내용을 추출 하시겠습니까?

답변

관련 문제