2017-05-16 1 views
0

샘플 문제가 있습니다. URL과 HTML을 입력으로 사용하며 크롤러가 googlebot 사용자 에이전트로 크롤링 할 수없는 요소를 가져와야합니다.Google에서 크롤링하지 않은 요소 가져 오기 Bot

Robots.txt 파일은 크롤링되지 않은 모든 요소를 ​​제공하지 않으며이 요소를 감지하는 데 문제가 있습니다.

그 점에 대해 알고 계십니까? 고맙습니다.

답변

0

저는 요소를 통해 페이지 외부의 리소스에 대한 링크를 의미한다고 가정합니다. crawler-commons을 살펴보면 로봇 파일을 처리하기위한 API가 있습니다. 로봇 페이지를 가져 와서 크롤러 커먼 (crawler-commons)으로 구문 분석 한 후 사용자 에이전트가 주어진 경우 특정 URL이 허용되는지 여부를 확인할 수 있습니다.

웹 크롤러 (예 : StormCrawler)가 기본값입니다.