어떻게 BS4에 DIV의 내용을 추출 할 :div의 내용을 추출 하시겠습니까?
>>> Doc
<div class="document">
<p>Text.</p>
<p>More text</p>
</div>
>>> type(Doc)
bs4.element.Tag
나는
<p>Text.</p>
<p>More text</p>
어떻게 BS4에 DIV의 내용을 추출 할 :div의 내용을 추출 하시겠습니까?
>>> Doc
<div class="document">
<p>Text.</p>
<p>More text</p>
</div>
>>> type(Doc)
bs4.element.Tag
나는
<p>Text.</p>
<p>More text</p>
사용 .contents
싶어 :
>>> Doc = soup.find('div', {'class': 'document'}) # assuming soup is your main content
>>> for i in [x for x in Doc.contents if x != '\n']:
... print i
...
<p>Text.</p>
<p>More text</p>
이 사업부의 단지 전체 내용을 얻으려면을 어떤 요소가 포함되어 있는지에 관계없이 soup.find("div").prettify()
을 사용하면 효과적으로 내부 HTML을 가져올 수 있습니다.
나는 이것을 사용하여 utf8에 문제가 있습니다. 필요에 따라 div를 제거하면 얻을 수 없습니다. – Adobe
죄송합니다 - 아마도 내가 말했음에 틀림 없으나 div 아래에는 임의의 복잡한 html : 테이블, 목록 등이있을 수 있습니다. – Adobe
@Adobe 그래서 div 태그의 전체 내용을 인쇄 하시겠습니까? – TerryA
예 :'