에 JSOUP
lib를 사용하여 데이터 스크래핑 소프트웨어를 작성했습니다. 일부 데이터 on this page 및 게시 된 페이지에서 결과를 받고 메신저를 게시 할거야. 모든 것이 완벽하게 작동하지만 최근에 사이트를 업데이트했으며 현재 300-500 개의 결과를 얻은 후에이 페이지를 사용할 수 없으며 앞으로 몇 시간 동안 고장났습니다. 내가 수동으로 다음 데이터 스크래핑 중 프록시 변경
System.setProperty("http.proxyHost", proxy);
System.setProperty("http.proxyPort", proxyPort);
프록시
을 변경하면 내 응용 프로그램은 지속적으로 모든 것이 다시 잘 작동한다. 문제는 프록시를 매번Read time
예외가 발생할 때마다 수동으로 업데이트해야하기 때문입니다.
500+ 결과 후에 block-ip filter
을 우회하는 다른 방법이 있습니까? 아니면 내 IP가 차단 될 때마다 혼자 프록시를 입력해야합니까?
가장 좋은 해결책은 원격 서버를 해킹하는 대신 일종의 간단한 트래픽 쉐이핑을 구현하는 것입니다. 즉, 크롤링 속도를 줄이고보다 정중 한 크롤링/스크래핑을 수행하는 것입니다. – haddr
@haddr 좀 더 설명해 주시겠습니까? 예를 들어, 내 스크래핑 속도는 초당 2-3 회의 결과입니다. 내가 1 초당 1 결과로 줄이면 웹 사이트를 차단하지 않을 것이라고 생각하십니까? –
아래의 답변을 참조하십시오, 코멘트 필드는 조금 작습니다. – haddr