2011-03-22 2 views
3

검색 결과 페이지에서 특정 도메인의 위치를 ​​찾기 위해 프로그래밍 방식으로 Google 검색 결과를 검색하고 싶습니다.PHP Google을 크롤링하지 않고 사이트의 Google 순위 얻기

양이 많아서 자주해야하기 때문에 검색 결과 페이지를 크롤링하지 않으려 고합니다. 올바르게 이해하면 Google에서 악용 사례로 판단합니다.

내가 찾은 대부분의 스크립트/클래스는 HTML 페이지를 구문 분석하려고 시도하지만 더 좋은 방법이 될 것입니다.

Google 결과를 얻기위한 API가 있습니까? 아이디어가 있으십니까?

감사합니다.

답변

3

먼저 이해해야 할 내용은 다음과 같습니다. "a"순위가 없습니다. 귀하의 키워드를 검색 할 때 볼 SERP 다른 SERP 다른 사람이 귀하의 키워드를 googleing 때 볼 수 없습니다. 그들은 뭔가가 순위를 매길 때 고려되는 "개인화"요소 (위치, 쿠키 사용, 즉석 검색, 요일 시간, 이전 검색, 웹 기록, 데이터 센터 등)에 대한 sh * tload입니다. 몇 가지 인기있는 키워드의 경우 상위 3 개는 정적이고, 5 ~ 10 개는 플럭스이고, 10 개가 지나면 실제로는 매우 희미 해집니다. 20 후에는 주사위를 던지는 것과 같습니다.

그리고 Google Serps 접근 방식입니다.

웹 검색 API (더 이상 사용되지 않음) 또는 맞춤 검색 API (== 쓰레기 == d * ckmove by google)가 악화됩니다.

무엇이든간에 Google 검색 결과에 대해 거의 의미없는 스냅 샷을 얻을 수 있습니다.

아니요, 기타 공식 API는 없습니다.

당신이 자신의 도메인에 대해 걱정한다면 나쁜 소식, 이제 좋은 소식 ... "google 웹 마스터 도구"로 이동하여 "검색어"를 클릭하십시오. 그 정보는 귀하가 얻을 수있는 최상의 정보입니다 (여전히 퍼지는하지만, 귀하가 발견 한 정보이며, 평균 순위는 어디입니까). 또는 당신은 Google의 트래픽의 추천 순위를 확인하기 위해 일부 특수 Google anlaytics 필터를 적용 할 수 있습니다.

당신이 경쟁을 분석하고 싶다면, 정확히 그런 종류의 서비스를 판매하는 검색 마케팅 회사가 많이 있습니다 (대부분이 시장별로 전문화되어 있습니다, 즉 독일에서는 sistrix이고, sh * tload가 있습니다). 우리 회사).

하지만 이전에 말했듯이 : 데이터는 의미없는 스냅 샷이며 대부분의 경우 실행 불가능합니다.

+0

Sistrix와 같은 회사는 어떻게 검색 엔진 순위를 수집합니까? 이 일을 할 수있는 웹 앱을 만들고 싶습니다. – user599146

+0

아무도 sistrix가 그것을 어떻게하는지 정확하게 알지 못합니다. (그들의 비밀의 소스입니다.)하지만 나는 일반적인 PC 사용자에게 자신의 PC에 소프트웨어를 설치하는 회사에 대해 들었습니다. 그들은 백그라운드 작업에서 Google 결과를 긁어냅니다. 또한 botnet (권장하지 않음) 또는 어딘가에 호스팅 된 서버 (작동하는 경우, 영리하고 많은 것을 다룰 필요는 없습니다)를 사용할 수 있지만 어쨌든, 당신이 그것을한다면 당신은 google TOS에서 벗어납니다. 하지만 전에 말했듯이. 그런 종류의 데이터에 대해 많이 걱정하지 마십시오. 나는 (좋은 돈을 위해) 많은 서비스를 테스트했지만, 데이터는 항상 일치하지 않았다. –

0

그들은 몇 달 전에 무료 API를 제공했습니다. 하지만 지금은 Deprecated.

당신은 새로운 Custom Search API.

한계를 시도 할 수 있습니다 : 100 개의 무료 쿼리/ 일.

+0

하루에 100 개가 넘는 무료 쿼리를 무료로 이용할 수있는 방법이 있습니까? 다른 API 또는 메소드가있을 수 있습니까? – user599146

+1

맞춤 검색 api == 다른 색인 –

0

이것은 Google Serp를 크롤링하여 요청간에 임의의 잠자기 시간을 가진 다른 프록시를 사용하고 현지화 된 결과와 올바른 사용자 에이전트 집합을 읽고 쿠키를 보내면 가능합니다.이 방법을 사용하면 프록시 팜을 300 프록시와 나는 차단되지 않고 하루 종일 어떤 웹 사이트라도 크롤링 할 수 있습니다./페이지/1,/페이지/2 등 웹 페이지에 순차적으로 액세스하지 않도록 차단할 수있는 많은 팁이 있습니다.그리고 매 N 초마다 정확히 새로운 웹 페이지를 요청하지 마십시오. 실제 사용자가 더 무작위로 탐색하기 때문에 이러한 두 가지 실수는 웹 요청에주의를 끌 수 있습니다. 따라서 순서가 잘못된 방식으로 웹 페이지를 크롤링하고 요청 사이의 지연에 임의의 오프셋을 추가해야합니다.

+0

일반적으로 당신은 맞지만 구글을 위해 "프락시 (farm)"라는 공용 프록시를 사용할 수 없으며, 아마 당신을 즉시 금지 할 것입니다. 신뢰할 수있는 스크래핑 작업을 위해 높은 볼륨의 사설 IP가 필요할 것입니다. 또한 300 개의 프록시로 대규모 활동을 수행하기에는 충분하지 않습니다. 그 목적을 위해 최대 1500 개의 개인 IP를 사용했습니다. – John

0

내가 선택한 대답을 좋아하지 않습니다. 너무를 일반화되어 먼저

는 SERP 순위가이며 대부분 언어 및 국가에 따라 달라집니다.
다른 요인은 거의 실제 요소가 아니며 매우 미약합니다 (예를 들어 Google에서는 웹 사이트를 가장 좋아할 수 있으며 가장 위에 랭크됩니다).

저는 개인적으로 많은 테스트를했으며 외국의 키워드를 모아서 거기 사람들에게 물어 보았습니다. 정확하게 똑같은 것을 얻었습니다.

이제는 중심 문제 Google 맞춤 검색 API는 순위 추적 옵션이 아니기 때문에 소량의 데이터 연구에만 유용합니다.
Bing과 똑같은 숫자이며, 둘 다 더 많은 양의 경우 실제로 비쌉니다.

순위 데이터를 얻고 싶다면 검색 엔진을 긁거나 크롤링 할 수 있습니다. 그럴만 한 가능성이 있습니다 (직접 해보기 만 가능). 또는 사용자를 대신하여 검색 엔진을 사용하여 소프트웨어에 원시 데이터를 전달합니다. (또한 저 자신을 사용하여).

자신을 크롤링하고 싶지 않다고 말씀 하셨듯이 scraping.services을 살펴보세요.
내가 실수하지 않으면 개발자를 위해 설계된 근근이 살아가는 서비스입니다. 많은 양의 키워드에 대해 완전한 기능의 순위 추적 엔진을 만들 수 있습니다.
차트와 보고서 (sistrix와 같지만 같은 종류의 소스)와는 다른 API 모듈을 사용하여 직접 처리하지 않으려는 경우도 있습니다.

개인적으로 나는 키워드 추적기를 아직 사용하지 않았지만 Google과 Bing을 사용하여 스크래핑 API를 직접 사용했으며 지금까지 문제없이 작동합니다.

독자적으로 검색 엔진을 긁는 데 관심이 있다면 큰 도움이 될 수 있습니다.

관련 문제