2014-09-17 3 views
0

파이썬을 사용하여 웹 사이트의 텍스트 만 긁어 모으는 방법이 필요합니다. BeautifulSoup 4, HTML 요청 및 NLTK를 설치했지만 단순히 긁어 모으는 방법을 찾지 못하는 것 같습니다.Python을 사용하여 HTML5 웹 사이트에서 텍스트 긁기

나는 모든 URL을 연결하고 일반 텍스트를 얻을 수있는 간단한 코드 스 니펫이 정말로 필요합니다. 나는 그것을 얻으려고 노력하고있다. this website

+0

더 많은 정보와 코드를 넣는 것을 고려하십시오. – Jones

답변

1

BeautifulSoup는 페이지에서 모든 텍스트를 쉽게 추출 할 수있다. 다음은 <body> ... </body> 섹션의 텍스트를 추출하는 예입니다.

import urllib 
from bs4 import BeautifulSoup 
from contextlib import closing 

url = 'https://developer.valvesoftware.com/wiki/Hammer_Selection_Tool' 
with closing(urllib.urlopen(url)) as h: 
    soup = BeautifulSoup(h.read()) 

print soup.body.get_text() 
관련 문제