역 마가렛 루비 보석을 사용하여 HTML 페이지를 Markdown으로 변환하려고합니다.루비에서 닫히지 않은 HTML 태그를 자동으로 수정하기
/usr/lib/ruby/1.9.1/rexml/parsers/treeparser.rb:95:in `rescue in parse': #<REXML::ParseException: Missing end tag for 'img' (got "td") (REXML::ParseException)
소스는 일부 IMG
, INPUT
등 태그 >
대신 />
에있는 끝을 포함 불행하게도 실패합니다.
나는 tidy_ffi 보석 시도했다 :
doc = Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html,
:numeric_entities => 1,
:output_html => 1,
:merge_divs => 0,
:merge_spans => 0,
:join_styles => 0,
:clean => 1,
:indent => 1,
:wrap => 0,
:drop_empty_paras => 0,
:literal_attributes => 1).clean)
을하지만 그 차이를하지 않았다. 어떤 제안?
HTML 샘플을 보여주십시오. –
어느 지점에서 오류가 발생합니까? 관련 코드도 함께 표시하십시오. –
HTML은 어디서 오는가? 마크 다운 프로세서? –