2012-11-06 2 views
5

는 일부 데이터를 긁어 :마우스 클릭이 필요한 웹 스크랩? 내가 (R에) 노력하고

http://www.soccerbase.com/matches/results.sd?date=2012-11-04

즉, 난 당신이 내가 버튼을 누르면 페이지에 표시 경기 세부 사항을 싶어. 그러나 버튼을 클릭 한 것으로 보이는 정보는 원본 HTML 코드에 포함되어 있지 않습니다. 내가 볼 수있는 것은 막 다른 골목에서 나를 잎 거의 (내가 포함 할 데이터를 예상)은 줄 ...

<span class="infoField"><a href="#" class="info finished" title="Show full match details"></a></span> 

... 어떤 아이디어인가?

+1

Firefox 또는 Chrome 개발 도구에서 방화 광구를 사용해야합니다. 웹 사이트는 http://www.soccerbase.com/matches/additional_information.sd?id_game=652536 –

+2

에 대한 자바 스크립트 요청을 작성하며 이용 약관도 읽어야합니다. – Spacedman

+0

@Spacedman 미국에서는 적어도 이러한 이용 약관은 법적 구속력이 없습니다. 예 : http://www.forbes.com/sites/ericgoldman/2012/10/10/how-zappos-user-agreement-failed-in-court-and-left-zappos-legally-naked/ – hadley

답변

4
require(XML) 
require(RCurl) 
dataurl<-'http://www.soccerbase.com/matches/results.sd?date=2012-11-04' 
sdata<-htmlParse(dataurl) 
sid<-xpathSApply(sdata,'//*/tr/@id') 
sid<-gsub('^tgc','',sid) 
mUrl<-paste0('http://www.soccerbase.com/matches/additional_information.sd?id_game=',sid) 

위의 코드는 추가 데이터에 필요한 URL을 얻습니다. 그러나 나는 그들의 데이터를 수집하는 것과 관련하여 사이트를 점검 할 것이다.

관련 문제