BS4 (python3)를 사용하여 HTML 파일에서 텍스트를 추출합니다. 내 파일은 다음과 같습니다 :beautiful_oup with get_text - 핸들 공간
<BODY>
<P>Hello World!</P>
</BODY>
</HTML>
내가 get_text()
메소드를 호출, 출력은 "안녕하세요!". HTML이기 때문에 "Hello World!"를 얻을 것으로 예상됩니다. (두 개 이상의 공백은 HTML에서 한 공백으로 바뀝니다). 이 상황에 대한
이 관련도 : "안녕하세요"를
<BODY>
<P>Hello
World!</P>
</BODY>
</HTML>
은 내가 찾을 예상 하지만 그것은 "Hello \ n World!"였습니다.
목표 달성 방법은 무엇입니까?
원하는 사운드는 HTML을 렌더링하고 결과 텍스트 출력을 얻는 것과 같습니다. 이러한 유형의 변환을 수행하는 어딘가의 기능이 있어야합니다 (BS에서는 아닐 수도 있음). – theorifice