에 대한 BS4를 사용하십니까? 나는 그것을 봤지만 아무것도 유용한 것을 발견하지 못했습니다.파이썬 중첩 된 html 태그
1
나는이 HTML 코드에서 말 미국과 캐나다를 인쇄해야
A
답변
0
이것이 전부라면 각 태그에 대해 get_text를 사용할 수 있습니다. 텍스트를 얻으려면이
from bs4 import BeautifulSoup
html="""<div class="txt-block">
<h4 class="inline">Country:</h4>
<a href="/search/title?country_of_origin=us&ref_=tt_dt_dt" itemprop="url">USA</a>
<span class="ghost">|</span>
<a href="/search/title?country_of_origin=ca&ref_=tt_dt_dt" itemprop="url">Canada</a>
</div>"""
soup = BeautifulSoup(html, 'html.parser')
[atag.get_text() for atag in soup.find_all('a')]
0
을 시도하십시오, 다음 코드는 작동합니다
from bs4 import BeautifulSoup
html_string = """<div class="txt-block">
<h4 class="inline">Country:</h4>
<a href="/search/title?country_of_origin=us&ref_=tt_dt_dt" itemprop="url">USA</a>
<span class="ghost">|</span>
<a href="/search/title?country_of_origin=ca&ref_=tt_dt_dt" itemprop="url">Canada</a>
</div>"""
soup = BeautifulSoup(html_string)
print([node.string for node in soup.find_all('a', attrs={"itemprop" : "url"})])
위의 코드는 발생합니다 :
[u'USA', u'Canada']
당신은 BeautifulSoup로 Documentation here를 참조 할 수 있습니다. 그것은 사용하기 쉽고 간단합니다.
또한 lxml의 도움으로이 작업을 수행합니다.이 작업은 BeautifulSoup보다 훨씬 빠릅니다.
from lxml import html
html_string = """<div class="txt-block">
<h4 class="inline">Country:</h4>
<a href="/search/title?country_of_origin=us&ref_=tt_dt_dt" itemprop="url">USA</a>
<span class="ghost">|</span>
<a href="/search/title?country_of_origin=ca&ref_=tt_dt_dt" itemprop="url">Canada</a>
</div>"""
root = html.fromstring(html_string)
print(root.xpath('//a[@itemprop="url"]//text()'))
도됩니다 어떤 :
['USA', 'Canada']
0
간단한 방법 findAll
혼자 나라 이름을 추출 할 수 있습니다.
from bs4 import BeautifulSoup
html ="""
<div class="txt-block">
<h4 class="inline">Country:</h4>
<a href="/search/title?country_of_origin=us&ref_=tt_dt_dt" itemprop="url">USA</a>
<span class="ghost">|</span>
<a href="/search/title?country_of_origin=ca&ref_=tt_dt_dt" itemprop="url">Canada</a>
</div>
"""
soup = BeautifulSoup(html,"html.parser")
for i in soup.findAll("a"):
print(i.text)
당신이 원하는 결과 줄 것이다 위의 코드의 실행 : 여기 파이썬 3의 솔루션 코드
USA
Canada
관련 문제
- 1. 중첩 된 HTML 태그
- 2. 중첩 된 HTML 태그 일치
- 3. 레일에 중첩 된 HTML 태그
- 4. 중첩 된 태그 웹 스크랩 핑 파이썬
- 5. HTML 태그 중첩 문제
- 6. 중첩 된 HTML 태그 뇌 동결을 갖는
- 7. 중첩 된 응용 프로그램 및 html 태그
- 8. XSS는 중첩 된 HTML 태그 입력을 살균합니다.
- 9. 중첩 된 DIV 태그
- 10. BeautifulSoup로 중첩 된 태그
- 11. 중첩 된 JSTL 태그
- 12. 중첩 된 DIV 태그
- 13. xpath에서 중첩 된 태그 처리하기
- 14. BeautifulSoup로 파이썬 중첩 된 텍스트
- 15. HTML 중첩 ul 태그. 글꼴 크기 변경
- 16. 파이썬 - 중첩 된 IF
- 17. 중첩 된 파이썬 데코레이터?
- 18. 파이썬 - 중첩 된 목록
- 19. 파이썬 - 중첩 된 사전
- 20. 중첩 된 기능 파이썬
- 21. 파이썬 : 중첩 된 배열
- 22. 파이썬 - 중첩 된 목록
- 23. 파이썬 중첩 된 목록
- 24. 중첩 된 ul CSS 태그
- 25. jquery로 중첩 된 태그 추가
- 26. PHP 중첩 된 SOAP 태그
- 27. 중첩 된 자식이있는 비디오 태그
- 28. BeautifulSoup로 중첩 된 DIV 태그
- 29. 레일에 중첩 된 선택 태그
- 30. XSL (나는이 동작을 변경할 수 없음) 중첩 된 HTML 태그
정확하게 당신이 시도 무엇을하고의 문제는 무엇인가? 가능성이있는 것처럼 대답이 "아무것도"아닌 경우, 멀리 가서 변경하십시오. – jonrsharpe
지금까지 해보신 것은 무엇입니까? 귀하의 bs4 코드는 무엇입니까? – Soviut