2012-09-26 2 views
5

누구나 매우 큰 HTML 스트림/파일을 파싱하는 방법에 관해서 포인터 나 조언을 제공 할 수 있습니까? 예를 들어 약 270,000 개의 행이있는 테이블이 있는데 한 번에 약 20k 개를 내 앱에 가져오고 싶습니다. jsoup 구문 분석 메서드는 HTML 단편을 허용하지만이 단편을 나타내는 XXX 바이트를 읽는 가장 효율적이고 가장 깨끗한 방법은 무엇인지 명확하지 않습니다.Jsoup로 거대한 HTML 스트림 파싱하기

가장 큰 도움을주었습니다.

답변

0

XHTML이고 모든 것을 한 번에 메모리에 보관할 필요가없는 경우 더 나은 방법은 SAX 파서를 사용하고 시작 및 종료 태그 이벤트를 사용하여 필요한 데이터를 선택하는 것입니다.

또 다른 생각은 StAX 파서 일 수 있습니다.

+0

그냥 일반 HTML입니다. – rkd80