2011-11-18 2 views
3

큰 HTML 문서를 구문 분석하고 정보를 추출하려고하므로 원하는 데이터만으로 JSON 문서를 만들 수 있습니다. 나는 현재 Nokogiri :: HTML :: SAX :: Parser를 사용하여 HTML 문서를 파싱하고 있으며, 큰 효과가있다. 그러나 내가 HTML 문서를 다운로드하는 동안 구문 분석을 시작할 수 있도록 좀 더 가까이에 뭔가를 사용하고 싶습니다. Nokogiri::XML::SAX::PushParser.Nokogiri로 HTML 푸시 파서를 만들 수 있습니까?

I've tried playing around Nokogiri가 PushParser를 사용하여 HTML SAX 구문 분석기에 포함 시키지만 여전히 입력 문서를 XML로 처리하기 때문에 구문 오류가 계속 발생합니다. 잘못된 형식의 태그 등으로 인해 HTML과 함께 푸시 구문 분석기를 사용할 수없는 이유가있을 수 있지만 Nokogiri의 PushParser를 HTML 문서와 함께 사용하는 방법이 있는지 궁금합니다.

+1

Nokogiri에서 가능하다고 생각하지 않습니다. (내가 확실하지 않기 때문에 답변이 아니라 댓글로 게시됩니다.) – Phrogz

답변

0

2011 년 12 월 Nokogiri는 HTML Push Parser을 추가했습니다. 그래서 이것이 이것이 가능한지에 대한 질문에 답한다고 생각합니다.

관련 문제