일부 화면 스크래핑 소프트웨어로 작업 중이며 Beautiful Soup에 문제가 있습니다. 파이썬 2.4.3과 아름다운 스프 3.0.7a를 사용하고 있습니다.Beautiful Soup 추출시 오류가 발생했습니다.
<hr>
태그를 제거해야하지만 많은 다른 속성을 가질 수 있으므로 replace()를 호출해도 태그가 잘리지 않습니다.
<h1>foo</h1>
<h2><hr/>bar</h2>
그리고 다음 코드 : 다음 HTML을 감안할 때
soup = BeautifulSoup(string)
bad_tags = soup.findAll('hr');
[tag.extract() for tag in bad_tags]
for i in soup.findAll(['h1', 'h2']):
print i
print i.string
출력은 다음과 같습니다
<h1>foo</h1>
foo
<h2>bar</h2>
None
내가 추출 기능을 오해하고 있는가, 또는 이것을이다 아름다운 수프와 버그?