robots.txt를 존중하는 크롤러를 작성하고 싶습니다. 불행히도 헤드리스 브라우저는 robots.txt를 지원하지 않는 것 같습니다. PhantomJS는 사람들이 PhantomJS에서 토론을 시작한 후 답변을 얻었습니다. PhantomJS는 크롤러가 아닌 브라우저입니다. 스크립트에서 사용하면 스크립트는 robots.txt를 존중해야합니다.헤드리스 브라우저가 robots.txt를 조심해야합니까?
이 정보가 맞습니까? 나는 robots.txt가 각 HTTP 요청 및 주요 URL뿐만 아니라 존중되어야한다고 생각했습니다.
그래서 질문 : robots.txt에서 기본 URL을 확인하는 것으로 충분합니까?
이러한 함수는 존재합니다. page.onResourceRequested는 두 개의 인수를 취하는 함수로 설정할 수 있습니다. 두번째는'abort()'메쏘드가있는 네트워크 요청 객체입니다. – Collin