2011-01-19 2 views

답변

5

페이지를 구문 분석 Nokogiri 보석을 사용하고 문서에 나타나는 모든 img 태그의 src 특성을 얻을 :

$ irb 
irb(main):001:0> require 'rubygems' 
irb(main):002:0> require 'nokogiri' 
irb(main):003:0> require 'open-uri' 
irb(main):004:0> doc = Nokogiri::HTML(open("http://stackoverflow.com/questions/4741550")) 
irb(main):006:0> doc.css('img').collect {|elem| elem[:src] } 
=> ["http://www.gravatar.com/avatar/0543907746be29497b873de97957d3ab?s=32&d=identicon&r=PG", 
    "/posts/4741550/ivc/9291", 
    "http://pixel.quantserve.com/pixel/p-c1rF4kxgLUzNc.gif"] 
+0

이 훌륭한 솔루션입니다; 그러나 그것은 매우 느립니다. 내가 이것을 더 빨리 최적화 할 수있는 것이 있습니까? – jordanstephens

관련 문제