나는 beautifulSoup4가있는 웹 페이지 스크레이퍼를 만들고 있습니다. 나는 기사의 원본 그리고 심상을 얻고 싶, 그러나 몇몇 문제가있다! 나는이와 전체 텍스트를 얻을텍스트와 이미지를 함께 스크랩하는 방법은 무엇입니까?
<div>
some texts1
<br />
<img src="imgpic.jpg" />
<br />
some texts2
</div>
:
post_soup.get_text()
을 마지막으로 나는 HTML 페이지에 저장 urllib2
평소와 div
의 모든 이미지를 저장하고 HTML 코드는 다음과 같이 s 번째입니다 모든 텍스트를 맨 위에 놓고 이미지를 마침내 새 html 페이지에 저장하려면 먼저 페이지를 긁어 내서 처음에 some texts1
을 입력하십시오. image
some texts2
제안 사항을 알려주십시오.
+1 어떻게 더 잘 될 수 있을까? 그것은 위쪽/아래쪽에 여러 줄의 문자열을 올바르게 얻습니다. – mr2ert