2016-07-31 1 views
-1

나는 여러 URL을 읽고 단어 (단어는 A-Za-z0-9 문자 만 포함)를 생성하는 파이썬 프로그램을 작성하고 있습니다. . 출력이 내가 지금까지 무엇을 가지고여러 URL을 읽고 단어 (영숫자 만 포함해야 함) 빈도 표

url2.txt, url1.txt 이름을 가진 파일에 저장 될 수있다

import urllib2 
import obo 

url = 'sample url' 

response = urllib2.urlopen(url) 
html = response.read() 
text = obo.stripTags(html).lower() 
wordlist = obo.stripNonAlphaNum(text) 


for s in sorteddict: 
    print str(s) 
+1

을 그리고 당신의 질문은 ... :

코드는 다음과 같을 수? – EBH

+0

더 진행하는 방법? user3091275 단계를 밟았지만 가져 오기 오류가 발생 했습니까? –

답변

0

쉽게 텍스트를 추출 할 boilerpipe를 사용할 수 있습니다 https://github.com/misja/python-boilerpipe를.

from boilerpipe.extract import Extractor 
from collections import Counter 

urls = ['url1', 'url2', ... ] # A list of the urls you want to fetch 
# Ask boilerpipe to fetch the data 
extractors = [Extractor(extractor='ArticleExtractor', url=url) for url in urls] 
# Ask boilerpipe to extract the text 
raw_texts = [extractor.getText() for extractor in extractors] 
# count the occurrences of words in each text 
word_counts = [Counter(text.split(" ")) for text in raw_texts] 
+0

고마워,하지만 이걸 실행할 때. 다음 오류가 표시됩니다. 역 추적 (마지막으로 가장 최근 통화) : 파일 "test0731.py", 라인 1, 에서 boilerpipe.extract 가져 오기 추출기 파일에서 "/Library/Python/2.7/site-packages/boilerpipe/extract/__init__.py " 수입 허구 ImportError를 라인 4 : 없음 모듈은 허구 이름이없는 나는 그 허구 패키지에는'sudo는 핍이 boilerpipe'를 설치하여 boilerpipe를 설치 했나요 –

+0

수입되어 있는지 만들었습니다? – user3091275

+0

예, 올바르게 설치되었고 성공을 보였습니까? –

관련 문제