2011-03-04 3 views
1

Google 검색 웹 페이지를 만든 다음 순수 텍스트 콘텐츠를 얻기 위해 HTML 태그를 정리하는 프로젝트를 진행 중입니다.Google 검색 결과를 얻고 HTML 태그를 청소하기위한 제안

사용할 수있는 도구에 대한 모든 제안 (특히. 파이썬 도구)

많은 감사.

+0

http://lxml.de/ – thirtydot

+0

제안 : HTML 구문 분석 및 Python을 계속 검색하십시오. 예를 들어 http://stackoverflow.com/search?q=html+parsing+%5Bpython%5D에는 진행 방법에 대한 많은 힌트가 있습니다. –

+4

한 가지는 궁금합니다 ... Google의 맞춤 검색 API를 일부러 사용하지 않습니까? 검색 결과의 HTML보다 더 안정적인 결과를 얻을 수 있습니다. 형식은 요청 후에도 동일한 요청으로 유지되지 않을 수 있습니다. –

답변

0

마지막으로 멋진 제품군 BootCat이 발견되었습니다.

0

파이썬에는 실제로 매우 빠른 것이 내장되어 있습니다 (here). 또한 특히 HTML 스크래핑을 위해 추가 기능을 제공하는 매우 강력한 기능이있는 Beautiful Soup이 있습니다.

그러나 검색 API를 사용하지 않는 이유는 무엇입니까?

+1

멋진 파이썬 스크립트 [link] (http://breakingcode.wordpress.com/2010/06/29/google-search-python/)를 통해 Google 검색 결과를 쉽게 얻을 수 있습니다. 또한 저자는 Google이 법인 계정 프록시 당 하나도 작동하지 않는다고 경고했습니다. Google은 하루에 계정 당 100 개의 맞춤 검색 만 허용하기 때문입니다. – Leo5188

2

나는 텍스트 검색, 분석 및 도구 모음을 제공하는 Python 웹 마이닝 모듈 인 Pattern을 확인했습니다. 나는 그것을 개인적으로 사용하지 않았지만 강력 해 보인다.

module pattern.web는 다양한 API (Google, Gmail, Bing, Twitter, Wikipedia, Flickr)를 강력한 HTML 파서 및 웹 스파이더와 번들로 묶는 웹 툴킷입니다. 그 목적은 사용하기 쉽고 일관된 방법으로 온라인 컨텐츠를 검색하는 것입니다.

+0

감사합니다 존, 나는 이것을 트위터에서 발견했지만 그것을 내 일과 연결시키지 않았다. – Leo5188

관련 문제