2017-09-24 1 views
-2

루비 보석을 사용하여 브라우저에 지정된 HTML 페이지가 표시되면 사용자에게 표시되는 모든 텍스트를 가져와야합니다. 이제 Mechanize 및 Nokogiri를 사용하여 웹 사이트의 데이터를 스크랩했지만 사용자에게 표시되는 단어 나 텍스트가 필요합니다. 이 작업을 수행하는 데 사용할 수있는 보석 또는 방법을 언급하십시오.루비의 보석을 사용하여 HTML 코드로 볼 수있는 모든 텍스트를 얻는 방법

답변

0

Nokogiri로 할 수 있습니다.

require 'rubygems' 
require 'nokogiri' 

source = "<div>Manu <span> hi</span></div>" 

Nokogiri::HTML(source).text 
# => Manu hi 

줄 바꿈과 공백에 여전히 문제가 있습니다. 당신은 그 문제를 직접 처리해야합니다.

관련 문제