2017-03-26 1 views
6

Google의 검색 결과로 HTML을 얻으려고합니다.Google 검색에 요청하기

https://www.google.ru/?q=1111 

그러나 브라우저에서 모두 괜찮습니다 만약 내가 곱슬 곱슬와 함께 사용하기 위해 노력하고있어 또는 Google에서 "소스보기"로 소스를 얻을 때, 일부 자바 스크립트가 :에, 예를 들어 GET 요청을 전송로 코드, 검색 결과가 없습니다. 그게 어떤 종류의 보호일까요? 내가 무엇을 할 수 있을지?

답변

-1

브라우저에서로드 한 다음 Javascript를 통해 결과를 스크래핑 할 수 있습니다.

Google API를 사용할 수도 있지만 하루에 100 번 이상 요청할 경우 결제가 필요합니다.

+1

귀하의 방법은 꽤 빨리 차단됩니다. Google은 검색을 계속하기 위해 반드시 해결해야하는 보안 문자가있는 "로봇이 아닌 ..."화면을 제공합니다. –

+0

@BrianSmith, 물론 그렇습니다. 그러나 모든 페이지 당 한 번만. – UndeadDragon

+0

1) 불법이 아닙니다. 2) 매우 느릴 필요는 없습니다. "유일한 방법"은 가능한 최악의 방법입니다. 3) captcha 페이지가 "한 번"더 자주 발생하지 않으며 궁극적으로 그의 공급자의 장기 블록에서 두 번째 최악의 경우에 captcha를 더 이상 요구하지 않는 IP의 짧은 또는 심지어 장기간 블록으로 이어집니다. – John

1

이제 GET 요청을하려면 Google Search API을 사용해야합니다.

다른 모든 방법은 차단되었습니다.

0

답변에 조금 더 많은 소스를 추가하려면 올바른 답변이 아니며 문제에 응답하지 마십시오.

우선 DoS와 같은 서비스를 해치지 않는 한 Google을 긁어내는 것이 가장 합법적입니다.
또한 메소드가 차단되지 않았으므로 간단하지 않습니다.

속도는 사용자의 방법에 따라 다르지만 매우 느릴 필요는 없습니다.
필요한 경우 분당 10 만 개의 키워드 페이지를 다룰 수 있습니다.

당신은 여기에 주제에 대한 더 나은 답변을 찾을 수 있습니다 : 곱슬 Is it ok to scrape data from Google results?

귀하의 문제가 보호에서 실제로 온다, 구글은 자동화 된 액세스를 허용하지 않으며 탐지 알고리즘의 매우 정교한 세트가 있습니다.
그들은 단순한 사용자 에이전트 검사 (즉, 직접적으로 멈추었습니다)에서 비정상적인 쿼리 또는 관련 쿼리를 탐지하려고하는 인공 지능으로 이동합니다.

관련 문제