많은 양의 텍스트에서 HTML을 제거해야합니다. 다른 Reader를 감싸는 java.io.Reader를 구현하는 클래스를 찾고 HTML 태그를 모두 생략하도록 텍스트를 변환하거나 공백으로 대체 할 수 있다면 멋질 것입니다. 잘못 구성된 HTML을 처리 할 수 있어야합니다.HTML 태그를 스킵 할 수있는 java.io.Reader 클래스인가?
성능이 중요합니다. 최대한 많은 기가 바이트의 텍스트를 처리해야합니다. 이 작업을 수행하는 일반적인 방법은 내 HTML을 String으로 읽어 들여 DOM 트리로 구문 분석하고 내가가는대로 텍스트를 추출하는 노드를 반복하는 것입니다. 불행히도 그것은 너무 느립니다. 구현은 일종의 저수준 렉서 (lexer)에 기반해야한다고 생각합니다.
누구든지이 작업을 수행 할 수있는 라이브러리에 대해 알고 있습니까?
나는 XSLT를 제안 하겠지만, 당신은 HTML의 일부가 잘못 형성되었다고 말했어. – emory
먼저 JTidy를 실행하여 XSLT를 적용 해 볼 수 있습니다. XSLT가 정확히 타오르는 것은 아닙니다. 간단한 찾기 및 바꾸기를 고려할 수 있습니다. – Josh
어쩌면 당신은 [정규식?] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454) – erickson