2011-11-01 3 views
1

페이지를 구문 분석하려면 헤드리스 브라우저가 필요했습니다. HtmlUnit을 사용하면이 목적을 달성하기 위해 Heroku Java 앱을 설정할 수 있습니다.HtmlUnit을 크롤러로 사용

하지만 지금은 몇 가지 문제를 다루고 있습니다.

"/ path"또는 "http (s) : // path"대신 현재 잘못된 URL "// path"가 있습니다. 2.9.4 버전의 소스를 다운로드하고 소스에 작은 수정 사항을 적용했습니다 ... 명백한 유지 관리상의 이유로 표준 소스를 수정하는 것이 실제로 효율적이지 않습니다.

내가 잘못된 방향으로 파고 있지 않은지 궁금합니다. HtmlUnit은 테스트 목적으로 페이지를 탐색하도록 설계되었습니다. 내 것은 브라우저처럼 할 것이므로 페이지를 최대한으로 만들어야합니다. 특히 저의 목표 웹 사이트는 매우 더럽고 존중하지 않는 웹 사이트이기 때문에 ...

이 회고에 대한 의견은 어떻습니까?

+0

내가 생각하고 있던 다른 솔루션은 다음과 같습니다. Saucelabs.com에서 레일에 Selenium이 있지만 파일 다운로드가 필요합니다. http://stackoverflow.com/questions/7980155/how-to-download-attachment-with -ruby-and-selenium을 제외하고는 전체적으로 작동합니다. 또 다른 아이디어는 ZombieJS에 nodeJS 앱을 사용하는 것입니다. 아이디어는 실제 DOM + JS 환경을 갖는 것이었지만 첫 번째 테스트에서 이미 JS 오류가 많이 발생했습니다 ... – ProxyGear

답변

0

HTML 단위는 헤드리스 브라우저 "시뮬레이션"의 경우 Selenium 2/Web Driver에 사용됩니다. 거기 그것은 잘 작동합니다.

그래서 저는 Html Unit을 사용하지 않을 이유가 없습니다. Selenium 2/Web Driver도보실 수 있습니다.

관련 문제