2014-10-07 9 views
0

사실 저는 웹 및 스콥에서 새로운 것입니다 ... 제 질문이 어리 석다면 이해해 주시기 바랍니다.Python Scrapy, LinkExtracotr이 특정 URL 리디렉션에 작동하지 않습니다

내가 원하는 것은 (A) http://www.seoultech.ac.kr/에 링크 된 URL (B) ctl.seoultech.ac.kr이 포함되어 있습니다. (B)의

그리고 내 start_urls (A)이다 '의 도메인 (A)는의 하위 도메인 인'이, 그리고 LinkExtractorusing allow_domains = (B)보다 크롤러는 한 페이지 (B)를 추출하고

둘째 페이지 (B)에도 도메인이 포함 된 일부 URL이 있기 때문에 (B)에 포함 된 URL을 추출 할 것으로 예상되지만 작동하지 않습니다 (B) 만 크롤링합니다.

URL (B)는 http://ctl.seoultech.ac.kr/web/index.php으로 리디렉션됩니다. 그러나 나는 자체적으로 스팸 처리 자체를 알고 있으므로 문제가 아닌 것으로 생각합니다.

아래는 제 간단한 코드입니다.

답변

0

앞에서 말씀 드린대로 URL (B)는 http://ctl.seoultech.ac.kr/web/index.php으로 리디렉션됩니다. 따라서 LinkExtractor는 URL 페이지 (B)를 확실히 설명하지 않습니다.

+0

그러나 Scrapy를 사용하여 리디렉션을 검색하면 기본적으로 리디렉션이 처리되는 것처럼 보입니다. 다른 URL을 시도하면 리디렉션이 처리되어 리디렉션 로그가 표시됩니다. – SangminKim

+0

URL (B)은 올바른 URL이 아닙니다. 그것은 어떤 웹 페이지도 지칭하지 않습니다. 따라서 직접 액세스하려고하면 HTTP 서버는 사용자를 "색인"페이지 (http://ctl.seoultech.ac.kr/web/index.php)로 리디렉션합니다. 리디렉션은 서버에서 수행됩니다. 선택은 리디렉션을 따르는 지 여부 만 수락합니다. – zczhuohuo

관련 문제