google-crawlers

0열

1답변

하위 도메인에 대해 robots.txt 파일을 올바르게 작성하는 방법은 무엇입니까? 내가 모든 크롤러 인덱스 루트 및 일부 특정 하위 도메인</p> <pre><code>User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ </code></pre> <p>이 권리가 있음을 원한다면 난에 robots.txt 파일을 작성하는 방법을

은 누군가가 나를 설명 할 수 있습니까? 그리고 그것을 어디에 넣어야합니까? 루트 (public_html) 폴더 또는 각 하위 도메인 폴더에 있습니까?

0열

1답변

Google 검색 결과 페이지에서 전체 HTML 콘텐츠를 얻는 방법

나는 웹 크롤링을 처음 사용하는데 도움을 주셔서 감사합니다. 수행해야 할 작업은 Google 검색에서 반환 된 전체 HTTP 응답을 얻는 것입니다. 나는 웹의이 부분을 추출해야 (XXXX는 검색 단어입니다) XXXX 관련 검색 : 브라우저의 검색 키워드를 구글에서 검색하면, 반환 된 페이지, 섹션이 페이지. 내 연구에서 현재 Google 크롤링 패키지의 대

0열

1답변

Google 크롤러가 미리 렌더링 된 각도 생성 페이지가 표시되지 않습니다.

내각 앱 생성 페이지가 HashBangs를 사용하지 않고 Google에서 완벽하게 크롤링하려고 시도합니다. #! 그래서 함께 pushstate URL을 생성 : $locationProvider.html5Mode(true); $locationProvider.hashPrefix('!'); 앱의 설정에 추가하고, HTML 헤더에 <base href="/ho

0열

1답변

Google 뉴스 크롤러 플립 페이지

이전 검색어에 대한 모든 뉴스 결과를 크롤링하고 제목과 URL을 반환하려면 크롤러를 수정하여 Google 뉴스의 모든 페이지에서 모든 결과를 얻으려고합니다. 현재 코드는 첫 번째 페이지 Googel 뉴스 검색 결과 만 표시 할 수 있습니다. 모든 페이지 결과를 얻는 방법을 아는 데 감사드립니다. 많은 감사합니다! 아래 내 코드 : import request

1열

1답변

Google 검색 내용 :이 페이지에 대한 정보가 없습니다

Google에서 내 웹 사이트를 검색 할 때 내 도메인과 함께 첫 번째 장소로 표시되지만 설명은 "이 페이지에 대한 정보가 없습니다." 이 User-agent: * Disallow: /bin/ 이미 같은 적절한 메타 정보를 포함하는 내 홈 페이지와 같은 robots.txt에 : <meta name="description" content="My webs

0열

1답변

Python에서 요청 간 간격은?

파이썬 요청 모듈 (get 함수)을 사용하여 크롤러와 같은 링크를 고칩니다. 스크립트를 사용하여 여러 요청을합니다. 너무 많은 요청을했기 때문에 Google은 CAPTCHA를 개입했으며 언젠가 재설정되었습니다. 나는 그것을 피하기 위해 각 요청 후 잠시 동안 코드를 넣으려면 시간 모듈을 사용하고 있습니다. 스크립트가 잠자기 상태가되어 Google이 잘못된

1열

1답변

Google 트렌드 크롤러 : CSV 작성 문제

아래 코드는 비공식 API 인 "https://github.com/GeneralMills/pytrends"을 사용하는 Google 트렌드 크롤러입니다. 내 코드는 잘 실행되지만 한 가지 문제는 아무도 Google 트렌드 크롤러의 한도를 모른다는 것입니다. 따라서 2000 개 이상의 "DNA"목록으로 크롤러를 실행하면 요청 제한을 초과했다는 오류가 발생합니다

0열

2답변

PHP 세션을 효율적으로 처리하는 방법은 무엇입니까?

이는이 전체 웹 사이트를 통해로드처럼 내 init.php이 모습입니다 : 저는 현재 PHP 세션을 테스트, 그래서 난 그냥 수명으로 60 초 넣어 $suid = 0; session_set_cookie_params(60, '/', '.' . $_SERVER['HTTP_HOST'], true); session_save_path(getcwd() . '/a/'

-1열

3답변

한 도메인의 페이지가 다른 도메인 이름으로 크롤링되는 이유는 무엇입니까?

두 개의 웹 사이트가 있습니다 (예 : www.sample1.com 및 www.sample2.com). 상품 ID가 입니다. 이 항목 1은 channel이라는 속성이 있으며 실제로는 www.sample2.com에 속합니다. 하지만 www.sample1.com 안에 요청 된 항목 (이 경우 항목 1)이 channel=sample2인지 확인하는 논리가 있습니다

0열

1답변

Prerender.io로드되지 스크립트는 제대로

나는 두 개의 자바 스크립트 파일이 있습니다 vendor.js - 나는 angular.js 다른 libs가있다; app.js - own code. 하지만로드 할 때 프리렌더가 내 페이지를 열지 못했습니다. 하나의 파일에 연결하면 모두 정상입니다. 어떻게 해결할 수 있습니까?