코드를 스크랩하는 중 생성하려는 웹 매시업에 대한 정보를 추출해야합니다.Html/Script Scraping Hpricot (Ruby On Rails)을 사용하는 Google지도
기본적으로,에서 코드를 스크랩하는 것을 시도하고있다 :
이http://yellowpages.com.mt/Meranti-Ltd-In-Malta-Gozo;/Hair-Accessories;Hijjhkikke=Hiojhhfokje.aspx
이 그냥 내가 긁어 따라서 나는 =/필요한 코드를 직접 프로그램을 공급되지 않습니다해야합니다 페이지 중 하나입니다. 내가 대신 내가 필요한 코드의 일부의를 나타 납니까
puts open(ypUrl, 'User-Agent'=>'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2') { |f| Hpricot(f) }
(Hpricot을에서) 다음 코드를 사용하여 페이지를 긁어 때
, 난 단지
<script type="text/javascript" src="http://maps.google.com/maps?file=api&v=2&sensor=false&key=ABQIAAAA8JYIIyGmC1BLOU85GKKkPRSNQenRT-s-Gs-9sYb3ZSBhRRTdcRTMq3zWEID1E35uXl9bdQKIPQIjNQ"></script><title>
즉, 스크립트 참조를 볼 수 있어요
몰타의 Beautimport Ltd (발 메인 헤어 익스텐션) | 전화 번호부?? (Malta) Ltd | YellowPages.com.mt
이것은 Firefox에서 소스를 볼 때도 볼 수 있습니다. 그러나 Firebug의 요소 위로 마우스를 가져 가면 XPath를 얻을 수 있는데, 불행히도 스크립트 참조가 남아 있기 때문에 작동하지 않습니다. (나는 내가 설명하는지 잘 모르겠다). 스크립트로 인해 페이지에 생성 된 모든 코드가 실제로 필요합니다 (파이어 버그에서만 볼 수 있음).
<a title="Click to see this area on Google Maps" href="http://maps.google.com/maps?ll=35.88805,14.46627&spn=0.006988,0.015922&z=16&key=ABQIAAAA8JYIIyGmC1BLOU85GKKkPRSNQenRT-s-Gs-9sYb3ZSBhRRTdcRTMq3zWEID1E35uXl9bdQKIPQIjNQ&sensor=false&mapclient=jsapi&oi=map_misc&ct=api_logo" target="_blank">
다음 XPath는 있습니다 (// TBODY을 의미) : 내가 (지도에서 구글 아이콘 위에 마우스로 불을 지르고에서 가져온 다음 추출 할 수 있도록 나는이 필요 그것을 얻을 수 없기 때문에 그것의 쓸모, Hpricot을의 전체 코드를 제공하지 않는 한하지만, 언급 한 바와 같이!
/html/body/form/table//tr/td/div/table[2]//tr[2]/td[2]/div/div[2]/table//tr/td/div/div[2]/a
을 이러한 방식으로 내가 LNG와 위도를 추출 할 수있을 것이다 내가 정말 내 프로젝트에 필요합니다. 난 정말 어떻게에 대해 가야할지 모르겠다. 다른 방식으로 Hpricot을 사용하여 필요한 모든 코드를 제공하지 않습니다. 어떤 도움이라도 대단히 감사 할 것입니다.
당신은 진지하게 에릭입니다! 고맙습니다. 당신의 도움없이 해결책을 찾지 못했을 것입니다. 다시 한번 감사합니다 – Erika