2010-01-31 5 views
2

저는 다양한 웹 사이트의 데이터를 집계 할 웹 스크래퍼를 만들고 있습니다. PHP의 DOM 기능을 사용하기 시작했는데, 특히 잘못된 형식의 마크 업과 문자 인코딩과 관련된 몇 가지 문제가 발생하면 PHP를 골라야한다. 나는 서버 측 자바 스크립트를 생각하고 있었지만 다른 제안들에 대해서 열려있다. Javascript를 사용하면 어떤 통역사를 사용해야합니까?DOM 조작에 가장 적합한 도구입니까?

답변

1

대부분의 경우 깨진 마크 업을 처리 할 수있는 Python 용 모듈 BeautifulSoup이 있습니다. 또한 페이지가 내장 된 휴리스틱이 작동하지 않는 잘못된 형식 인 경우 HTML을 사전 처리하기 위해 후크를 사용할 수 있습니다. 필자는 BeautifulSoup을 사용하여 수십 개의 파서를 작성했습니다.

또한 html5lib 모듈이 더 빠르며 유효하지 않은 HTML을 구문 분석 할 수도 있습니다.

두 모듈 모두 Ruby 포트가 있습니다.

관련 문제