안녕하세요. 저는 웹 페이지에 연결해야하는 간단한 웹 크롤링 스크립트를 작성하고 있습니다. 자동으로 302 리디렉션을 따르고, 링크의 최종 URL을 제공하고 HTML을 가져 오도록하겠습니다.http 연결을위한 최고의 java lib?
이런 종류의 작업을 수행 할 때 선호되는 Java 라이브러리는 무엇입니까?
감사
안녕하세요. 저는 웹 페이지에 연결해야하는 간단한 웹 크롤링 스크립트를 작성하고 있습니다. 자동으로 302 리디렉션을 따르고, 링크의 최종 URL을 제공하고 HTML을 가져 오도록하겠습니다.http 연결을위한 최고의 java lib?
이런 종류의 작업을 수행 할 때 선호되는 Java 라이브러리는 무엇입니까?
감사
당신은 이것에 대한 Apache HttpComponents Client (또는 "일반 바닐라"자바 SE 내장 및 자세한 URLConnection
API)를 사용할 수 있습니다. HTML 구문 분석/통과/조작 부분의 경우 Jsoup은 useful 일 수 있습니다.
비트 괜찮은 크롤러는 robots.txt을 준수해야합니다.
J-Spider
Apache Nutch과 같은 기존 Java 기반 웹 크롤러를 살펴볼 수 있습니다.
BalusC는 Apache의 HttpComponents Client를 살펴 보았습니다. Nutch 프로젝트는 많은 하드 크롤링/페칭/색인 생성 문제를 해결했습니다. 따라서 다음과 같은 302 문제를 해결하는 방법을 알고 싶다면 http://svn.apache.org/viewvc/nutch/trunk/src/
실제로 J-Spider보다 더 좋은 제안입니다. – BalusC
보세요 - http://stackoverflow.com/questions/1322335/what-of-the-the-the-the-the-best-http-post-get-etc-012-web-to-use-for- – adatapost