사실 저는 웹 및 스콥에서 새로운 것입니다 ... 제 질문이 어리 석다면 이해해 주시기 바랍니다.Python Scrapy, LinkExtracotr이 특정 URL 리디렉션에 작동하지 않습니다
내가 원하는 것은 (A) http://www.seoultech.ac.kr/
에 링크 된 URL (B) ctl.seoultech.ac.kr
이 포함되어 있습니다. (B)의
그리고 내 start_urls
(A)이다 '의 도메인 (A)는의 하위 도메인 인'이, 그리고 LinkExtractor
의 using allow_domains
= (B)보다 크롤러는 한 페이지 (B)를 추출하고
둘째 페이지 (B)에도 도메인이 포함 된 일부 URL이 있기 때문에 (B)에 포함 된 URL을 추출 할 것으로 예상되지만 작동하지 않습니다 (B) 만 크롤링합니다.
URL (B)는 http://ctl.seoultech.ac.kr/web/index.php
으로 리디렉션됩니다. 그러나 나는 자체적으로 스팸 처리 자체를 알고 있으므로 문제가 아닌 것으로 생각합니다.
아래는 제 간단한 코드입니다.
그러나 Scrapy를 사용하여 리디렉션을 검색하면 기본적으로 리디렉션이 처리되는 것처럼 보입니다. 다른 URL을 시도하면 리디렉션이 처리되어 리디렉션 로그가 표시됩니다. – SangminKim
URL (B)은 올바른 URL이 아닙니다. 그것은 어떤 웹 페이지도 지칭하지 않습니다. 따라서 직접 액세스하려고하면 HTTP 서버는 사용자를 "색인"페이지 (http://ctl.seoultech.ac.kr/web/index.php)로 리디렉션합니다. 리디렉션은 서버에서 수행됩니다. 선택은 리디렉션을 따르는 지 여부 만 수락합니다. – zczhuohuo