2017-11-09 5 views
0

우리는 NLTK를 사용하여 HTML 페이지에서 텍스트를 추출하지만, 대부분의 간단한 텍스트 분석 만 원합니다. 단어 수.HTML에서 NLTK보다 빠른 텍스트를 추출 하시겠습니까?

파이썬을 사용하여 HTML에서 보이는 텍스트를 추출하는 방법이 있습니까?

가시적/보이지 않는 노드, 이미지의 대체 텍스트 등 일부 최소 수준에서 HTML (그리고 이상적으로는 CSS)을 이해하는 것이 추가적으로 유용 할 것입니다.

+2

_How_ NLTK를 사용하여 처리하고 있습니까? HTML 페이지? nltk는 'clean_html()'함수를 사용했지만 2014 년에 [dropped it] (https://stackoverflow.com/q/26002076)를 다시 호출하고 작업을 'BeautifulSoup'으로 남겨 두었습니다. – alexis

+0

@alexis : 음, 좋은 질문입니다! 소스를 자세히 살펴본 후,'nltk'는'html2text'가 추출한 텍스트를 토큰 화하는 데에만 사용됩니다! 이렇게하면 문제가 완전히 바뀝니다. – 9000

답변

2

이전 직장에서 동일한 문제가 발생했습니다. 당신은 beautifulsoup를 확인하고 싶을 것이다.

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html) 
print soup.text 

현재의 문서를 찾을 수 있습니다 : 당신은 속성에 따라 요소를 무시할 수 https://www.crummy.com/software/BeautifulSoup/bs4/doc/

합니다. 외부 스타일 시트 이해에 대해서는 너무 확신하지 못합니다. 그러나 당신이 거기에서 할 수있는 것과 (페이지에 따라) 너무 느릴 수없는 것은 phantomjs와 같은 것으로 페이지를 렌더링 한 다음 렌더링 된 텍스트를 선택하는 것으로 조사합니다 :

관련 문제