html 데이터를 스크랩하기위한 권장 라이브러리

상당히 공정한 임의의 html 데이터를 처리해야합니다. 고맙게도 데이터는 약 12 개의 다른 템플릿으로 나눌 수 있습니다. 나의 현재 계획은 각각의 템플릿에 대해 필자가 필요없는 데이터를 추출 할 수있는 필터를 만드는 것이다. 문제는 그 직업에 이상적인 도구가 무엇인지 모르겠습니다.html 데이터를 스크랩하기위한 권장 라이브러리

누군가가 임의의 HTML 데이터에서 요소를 추출/추출하기위한 좋은 라이브러리를 추천 해주기를 바랬습니다. 이 경우에는 이상적인 FOSS 인 강력한 구문 분석기가 좋습니다. 과거에는 필자의 파서 작성, 정규 표현식 사용, 파이썬의 ElementTree 및 BeautifulSoup와 같은 다양한 구문 분석 라이브러리를 사용하여 모든 작업을 수행했습니다. 이상적으로는 '내가 사용하는 하나의 라이브러리'뿐만 아니라 수많은 기술을 사용하여 뭔가를 제안하게됩니다.

저는 리눅스 호스트에서이 작업을 수행 할 것이며 실제로 사용하는 언어에 대해서는 전혀 우려 할 필요가 없습니다.

(*) 그래, 누구나 "정규 표현식을 사용하여 html을 분석하는 것은 나쁘다"는 것을 알고 있습니다. 다시 불러내는 것은 의미가 없습니다.

출처

2010-02-18 Jotham

가 나는 이들 중 하나를 참조 맹세 매주 .. 언어 무신론자 : http://stackoverflow.com/questions/2861/options-for-html -scraping – Earlz

@ Elllz - "html scraping"을 검색 할 때 첫 번째 결과가 나오는 것은 더욱 이상합니다. –

그래, 나는 그것을 처음으로, 그리고 몇 가지 다른 사람을 읽었습니다. 많은 것을 한 사람처럼 말할 길이 없었습니다. 나는 Beautiful Soup로 작업했습니다. Perl에서 뭔가가 Mechanize와 같이 훨씬 더 빠를 것 같습니다. C 언어의 어떤 부분이 더 좋을 수도 있지만 모르겠습니다. 여기에서 겪게되는 문제는 (실제로이 문제를 해결하려고 시도한 것입니다.) 실제로 이것을 경험 한 사람들로부터 듣고 싶습니다. – Jotham

나는 hpricot으로 많은 성공을 거뒀습니다.

http://hpricot.com/

출처

2010-02-18 17:17:26 emh

QueryPath - www.querypath.org 단지 JQuery와처럼 CSS 선택기를 통해

당신 액세스 요소.

또한 등 템플릿 엔진으로 사용할 수 있습니다 ..

출처

2010-08-18 22:09:59

html 데이터를 스크랩하기위한 권장 라이브러리

답변

관련 문제