저는 다양한 웹 사이트의 데이터를 집계 할 웹 스크래퍼를 만들고 있습니다. PHP의 DOM 기능을 사용하기 시작했는데, 특히 잘못된 형식의 마크 업과 문자 인코딩과 관련된 몇 가지 문제가 발생하면 PHP를 골라야한다. 나는 서버 측 자바 스크립트를 생각하고 있었지만 다른 제안들에 대해서 열려있다. Javascript를 사용하면 어떤 통역사를 사용해야합니까?DOM 조작에 가장 적합한 도구입니까?
2
A
답변
2
아직 시도한 Simple HTML DOM Parser?
1
대부분의 경우 깨진 마크 업을 처리 할 수있는 Python 용 모듈 BeautifulSoup이 있습니다. 또한 페이지가 내장 된 휴리스틱이 작동하지 않는 잘못된 형식 인 경우 HTML을 사전 처리하기 위해 후크를 사용할 수 있습니다. 필자는 BeautifulSoup을 사용하여 수십 개의 파서를 작성했습니다.
또한 html5lib 모듈이 더 빠르며 유효하지 않은 HTML을 구문 분석 할 수도 있습니다.
두 모듈 모두 Ruby 포트가 있습니다.
관련 문제
- 1. Graphviz는이 유형의 그래프에 가장 적합한 도구입니까?
- 2. WCF가 이에 적합한 도구입니까?
- 3. 복잡한 SQL 쿼리를 작성하는 데 가장 적합한 도구입니까?
- 4. Nagios는 파일 날짜를 기준으로 모니터링하기에 적합한 도구입니까?
- 5. 데이터 조작원이없는 클래스가 파일 조작에 적합한 옵션입니까?
- 6. 성능 카운터가 내 작업에 적합한 도구입니까? 그렇다면 어떻게 사용합니까?
- 7. 추가 필드가있는 일대일 관계가 내 작업에 적합한 도구입니까?
- 8. 세마포어는이 비디오 시퀀스 캡처/저장 작업에 적합한 도구입니까?
- 9. 가장 가벼운 DOM 객체
- 10. AJAX에 가장 적합한 도구
- 11. 가장 적합한 "gridview"검색
- 12. 가장 적합한 PEAR는 무엇입니까
- 13. Webforms에 가장 적합한 글꼴
- 14. 좋은 링크 확인 도구입니까?
- 15. SVG지도 조작에 대한 제안
- 16. .IL 파일을 편집하기위한 도구입니까?
- 17. 조건부 조작에 대한 도움말
- 18. iterator 조작에 문제가 있습니다
- 19. jquery : 가장 빠른 DOM 삽입?
- 20. LINQ에 가장 적합한 시나리오는 무엇입니까?
- 21. 정렬에 가장 적합한 방법은 무엇입니까?
- 22. 가장 적합한 타원 코드의 버그
- 23. Winforms는이 용도에 가장 적합한 DataGrid입니까?
- 24. 메시지보기에 가장 적합한 도구는 무엇입니까?
- 25. WCF 클라이언트에 가장 적합한 방법
- 26. 반복에 가장 적합한 이름 집합입니까?
- 27. 프로그램에 가장 적합한 포트는 무엇입니까?
- 28. SQL Server에 가장 적합한 프로세서입니까?
- 29. DDD에 가장 적합한 ORM은 무엇입니까?
- 30. HttpRequestDispatcher에 가장 적합한 디자인 패턴?
감사합니다. –