2016-10-06 4 views
-1

나는 웹 사이트에서 끊임없이 금지령을 받고 있는데, 나는 치료에 download_delay = 10을 설정하고, fake_user_agent 패키지를 시도했다.이 site에 따르면, 토르와 폴리포를 구현하려고 시도했다. 그러나 다시 1/2 시간을 뛰기 후에 나는 금지되었다! 누구든지 나를 도울 수 있습니까?치료를 사용할 때 금지하는 것을 피하는 방법

참고 : scrapy-proxie 나는 이것을 시도하고 싶지만 활성화 할 수 없습니다. 하나 개의 주소에서 모든 연결 - - 클릭

  • 하지 토르에

  • +0

    입니다 아마도 싫어하는 일을하거나, ToS를 위반 한 것으로 판명 될 수도 있습니다. 더 많은 정보가 없으면 여기 아무도 왜 당신이 금지 당하고 있는지 말할 수 없습니다. – Rejected

    +0

    이 문제를 해결하는 올바른 방법은 사이트 소유자에게 이야기하고 물어 보는 것입니다. 귀하가 ToS를 위반하는 경우, 귀하의 액세스를 제한 할 권리가 있습니다. 우리가 그것에 대해 할 수있는 일은 없으며, 제 의견으로는 당신을 도울 수있는 것도 아무것도 없습니다. –

    +0

    그 이유는 가능한 이유가 웹 사이트의 ToS를 위반하기 때문입니다. OP는 사이트 소유자에게 먼저 데이터를 수집 할 올바른 방법이 있는지 알아 내야합니다. 대지. –

    답변

    2

    documentation에서 무엇을 말합니다. 사이트의 이러한 종류를 처리 할 때 다음

    염두에 두어야 할 몇 가지 도움말 :
    • 이 브라우저 에서 잘 알려진 것들의 풀에서 사용자 에이전트를 회전

      (얻을 주위 구글 그 목록)

    • 비활성화 쿠키 ( COOKIES_ENABLED 참조) 일부 사이트가 자리 봇의 행동에 쿠키를 사용할 수 있습니다로

    • 다운로드 지연 (2 이상)을 사용하십시오. DOWNLOAD_DELAY 설정을 참조하십시오.
    • 가능한 경우 사이트가 순환 IP 풀을 직접 사용하는 대신 Google 캐시를 사용하여 페이지를 가져옵니다. 예를 들어 무료 토르 ProxyMesh와 같은 프로젝트 또는 유료 서비스
    • 은 내부적으로 금지를 우회하는 고도로 배포 된 다운로더를 사용하므로 깨끗한 페이지를 파싱하는 데 집중할 수 있습니다. 이러한 다운로더의 한 예는 같은 크롤링중인 사이트, 사이트가 당신을 금지하는 경우 등, 크롤링 할 때 당신이 무슨 일을하는지, 당신이있어 같은 자세한 정보를 제공 할 필요가 Crawlera
    +0

    정말 고마워요! Rotating IP에 관한 튜토리얼이나 예제 프로젝트를 제공 할 수 있습니까? – Mohib

    +0

    [This] (http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/) 하나는 꽤 좋은 것 같습니다. 그것이 당신을 도운다면, 대답을 받아 들일 것을 고려하십시오. –

    0
    1. 사용 지연 나쁜, 여러 방문

    후 프록시를 회전 그리고이 게시물 확인 - 당신은 살펴 보셔야합니다 web scraping etiquette

    관련 문제