2016-11-08 3 views
0

Google 학자 정보를 추출하기 위해 웹 스크랩을 작성했습니다. 그러나 urllib2 pr 요청과 같은 편리한 도구는 실패했습니다. 그리고 그것은 나에게 503 에러 코드를 주었다.URL을 열고 파이썬에서 정보를 추출하는 방법

그리고 정보를 추출하는 다른 방법을 찾고 있습니다. 프로그램에서 정보를 추출하는 것보다 찾아보기에서 URL을 열게 할 수 있습니까?

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 

어떻게 등등 H-인덱스를 얻기 위해 진행 : 예를 들어

, 링크입니다?

+0

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

+0

아니, 그것은 작동하지 않습니다. 여전히 "503"오류가 발생했습니다. – Daniel

답변

0

Google 학술 검색 팀에서는 일시적으로 (503 개의 오류 코드 사용) 검색어를 자주 사용하거나 자동화 된 것처럼 보입니다. 너무 자주 질문 한 후 또는 스크립트로 실행중인 것으로 생각되어 일시적으로 금지되었을 수 있습니다. 쿠키를 사용하여 단일 세션에서 여러 쿼리를 수행 할 수 있습니다. 또는 금지가 해제 될 때까지 기다리거나 시도 사이에 기다리거나 스크립트가 웹 브라우저에서와 같이 보이도록 코드를 작성합니다 (쿼리에서 보내는 'userAgent'문자열 변경).

"google scholar 503"에서이 주제에 대한 많은 정보를 검색합니다 (그게 전부입니다).

는이 주제를 참조하십시오 : 503 error when trying to access Google Patents using python

+0

글쎄, 실제로 그걸 연구했지만 유용한 해결책을 거의 발견하지 못했습니다. – Daniel

+0

원래 질문에 연구, 발견, 시도 등을 포함시켜야합니다. 예를 들어, 링크 된 페이지 (예 : 요청간에 잠자기)에 대한 답과 의견에서 해결책을 시도 했습니까? 그들은 실패 했습니까? 재시도 후 헤더를 읽었습니까? 코드를 보여주세요. –

관련 문제