2010-08-22 5 views
1

JRuby에서 작동하는 HTML 파서를 찾기가 힘듭니다.JRuby와 호환되는 HTML 파서?

Nokogiri를 HTML 구문 분석에 사용하는 것을 좋아하지만 Nokogiri는 컴퓨터에서 사용할 수없는 bxml2.dll을 사용해야하며 모든 컴퓨터에서 사용할 수 있는지 확신 할 수 없습니다. 사용자의 컴퓨터.

나는 Scrubyt라는 또 다른 애용자를 사용하려고 시도했지만 Nokogiri가 필요한 Mechanize를 사용합니다.

JRuby에서 사용하는 Ruby HTML 파서는 무엇입니까?

답변

1

노코 기리의 순수 자바 버전은 하지는 libxml2를하거나 바이너리에 의존한다. http://wiki.github.com/tenderlove/nokogiri/pure-java-nokogiri-for-jruby을 참조하십시오.

Hpricot은 순수한 자바 포트가있는 인기있는 HTML 파싱 라이브러리입니다. 기능은 비슷합니다. 실제로 Hpricot은 HTML 구문 분석을 위해 CSS 선택기를 사용하여 대중화 된 파서입니다.

0

왜 nokogiri의 순수 자바 버전을 사용하지 않습니까?

http://github.com/tenderlove/nokogiri/tree/java

+0

이 Nokogiri 버전의 요구 사항에는 libxml2 및 libxslt가 포함됩니다. bxml2.dll은 libxml2의 바이너리 파일입니다. 바이너리 종속성이없는 XML 파서를 알고 있습니까? – sutch