2011-09-20 3 views
1

나는 인도 노래의 가사를 가지고 있으며, 내가 작업하고있는 실험을 위해 발매 연도를 태그해야한다.Google에서 검색하여 특정 도메인에 대한 링크를 크롤링하는 방법은 무엇입니까?

웹 사이트 (lyricsindia.net)에는 몇 년 동안이 가사의 철저한 데이터베이스가 있지만 불행히도 가사는 웹 사이트에서 검색 할 수 없습니다. 대신에 가사의 일부로 검색 문자열로 google을 검색하면 lyricsindia.net의 노래에 대한 링크가 항상 상위 10 개 항목에 포함됩니다.

크롤링의 시작점으로 검색 문자열을 사용하기 위해 scrapy와 같은 웹 크롤링 프레임 워크를 사용할 수 있는지 궁금합니다. 모든 스터디 튜토리얼에서는 시작 URL로 시작합니다.

답변

0

검색 문자열은 Scrapy를 사용하는 url의 일부일 수 있습니다.

을 google.com?q=my+string 또는, 당신은 같은 탐색 양식을 검색하고 문자열을 입력 할 수 있습니다 같은 :

return [FormRequest.from_response(response, 
      formdata={'search': 'you\'re search string'}, 
      callback=self.parse)] 

을 Scrapy 당신이 무엇을 할 수 나는 확신 하고 싶다.

관련 문제