<br>
요소를 개행 문자로 사용하면서 HTML 문서에서 일반 텍스트를 가져와야합니다. BeautifulSoup.text
은 <br>
과 개행을 처리하지 않습니다. HTML2Text는 꽤 좋지만 markdown으로 변환됩니다. 어떻게 내가 이것에 접근 할 수 있니?어떻게 파이썬에서 마크 업없이 HTML을 텍스트로 변환 할 수 있습니까?
4
A
답변
4
나는 다음과 같은 방법을 사용할 것을 좋아합니다. 새 줄을 기리기 위해 strip_tags(html)
에 전달하기 전에 문자열에 수동 .replace('<br>','\r\n')
을 입력 할 수 있습니다. this question에서
:
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
0
당신은 태그를 제거하고 (필요한 경우) 공백으로 대체 할 수
import re
myString = re.sub(r"<(/)?br(/)?>", "\n", myString)
myString = re.sub(r"<[^>]*>", " ", myString)
관련 문제
- 1. VBA에서 html을 일반 텍스트로 변환
- 2. AXLSX_RAILS에서 html을 텍스트로 변환
- 3. html을 텍스트로 변환
- 4. 파이썬에서 어떻게 문자열을리스트로 변환 할 수 있습니까?
- 5. iOS - HTML을 일반 텍스트로 변환
- 6. HTML을 일반 텍스트로 변환 하시겠습니까?
- 7. jQuery는 HTML을 일반 텍스트로 렌더링하고 토글합니다 (토글은 정상적으로 작동하지만 HTML을 텍스트로 변환 할 수 없음)
- 8. 파이썬에서 ispeech를 사용하여 텍스트로 변환
- 9. 배치 변환 HTML을 마크 다운
- 10. enum을 posgresql의 텍스트로 변환 할 수 있습니까
- 11. asp.net에서 HTML 마크 업없이 DB의 데이터를 출력합니다.
- 12. 마크 업없이 Wordpress 게시물의 카테고리를 인쇄하려면 어떻게해야합니까?
- 13. HTML을 pdf로 변환 할 수 있습니까?
- 14. HTML 마크 업없이 텍스트를 추출하려면 어떻게해야합니까?
- 15. Ruby on Rails에서 어떻게 html을 단어로 변환 할 수 있습니까?
- 16. 어떻게 HTML을 TIFF 이미지로 변환 할 수 있습니까?
- 17. 어떻게 html을 포함하는 문자열을 html로 변환 할 수 있습니까?
- 18. 브라우저는 html 마크 업없이 html 페이지를 어떻게 처리합니까?
- 19. 컬렉션을 가져 와서 마크 업없이 렌더링 할 수있는 구성 요소
- 20. 불필요한 마크 업없이 페이지 하단에 꼬리말을 붙이기
- 21. 마크 아웃에서 어떻게 탈퇴 할 수 있습니까?
- 22. 명시 적 마크 업없이 정의 된 키워드의 스타일을 어떻게 바꿀 수 있습니까?
- 23. 어떻게 파이썬에서 부동 소수점 숫자를 정수로 변환 할 수 있습니까?
- 24. 파이썬에서 "\ u0096"과 같은 문자를 어떻게 변환 할 수 있습니까?
- 25. 어떻게 파이썬에서 이스케이프 된 문자를 변환 할 수 있습니까?
- 26. 파이썬에서 어떻게 문자열을 명령으로 변환 할 수 있습니까?
- 27. 어떻게 문자를 파이썬에서 정수로 변환 할 수 있습니까?
- 28. 목록을 파이썬에서 대기열로 변환 할 수 있습니까?
- 29. 파이썬에서 문자열을 변환 할 수 있습니까?
- 30. HTML을 다시 마크 다운으로 변환 하시겠습니까?