기계화 및 기타 브라우저 에뮬레이터로 작업 할 때 네트워크를 모니터링해야하므로 Google 크롬 개발자 도구를 선호합니다.
는 일반 브라우저로 URL을 검사하고 이러한 확인 :
- 이 유효이 URL인가?
- 이 URL은 공개 되었습니까?
- 이 URL 브라우저가 제한되어 있습니까?
- 로그인으로이 URL을 보호합니까?
- 정상적인 조건에서이 URL에 어떤 매개 변수가 필요합니까? 액세스중인 URL가 제한됩니다
디버그 이러한 점 때문에 될 수있다
- 공공 사용
- 있을 수 있습니다 그 것이다 인덱싱
- 는 서버가 될 수 있습니다 허용되지 않습니다 디렉토리 경로, 일부 사용자 에이전트에 대해 제한했습니다.
- 요청을 완전히 복제하지 않을 수 있습니다.
나는 너무 많이 "사용하고 있을지도 모른다"고 생각하지만 내 포인트는 공개적으로 링크를 게시 할 수 없다는 것입니다. 귀하의 링크가 디렉토리에 직접 닿아 색인 생성이 해제 된 경우 오류를 추측 할 수 있습니다. 당신도 몇 가지 중요한 매개 변수가 누락 요청을 복제하지 않는 다른 경우
browser = Mechanize.new
browser.user_agent_alias = 'Windows IE 7'
: 그것은 다음과 같은 특정 사용자 에이전트와 기계화를 초기화 할 필요가 특정 사용자 에이전트가 '는 t은 어느 기계화에 찾아 또는 잘못된 요청 유형을 보내면 헤더가 누락되었을 수 있습니다.
편집 : 이제 당신이 여기 링크를 제공 한 것을 나는이 조금 청소기 만들 거라고 생각 HTTPS
Mechanize.new{|a| a.ssl_version, a.verify_mode = 'SSLv3', OpenSSL::SSL::VERIFY_NONE};
왜 그들이 그것을 금지했는지 알아 내야합니다. 403은 실제 설명이없는 "아니오"입니다. 단순화하고 OpenURI를 사용하여 일부 페이지를 가져 와서 어떤 일이 발생하는지 확인하십시오. 그런 다음 다양한 사용자 에이전트 서명을 사용하여 Mechanize를 시도하십시오. 또는 API를 가지고 있는지 문의하십시오. –
지리학, 리퍼러, 쿠키를 기반으로 할 수도 있고 아니면 너무 열심히 공격했을 수도 있습니다. – pguardiario
예. 10 분 간격으로 긁어 모으기 때문에주의를 끌 것입니다. 잠재적으로 사용자 에이전트를 변경하는 임시 해결책이 있습니까? 각 쿠키를 덤핑했지만 여전히 403 오류가 발생했습니다. – barnett