2009-11-11 2 views
0

잘못된 형식의 HTML 페이지에서 특정 유형의 모든 요소를 ​​검색하는 Java에서 가장 쉬운 방법은 무엇입니까? 그래서 이런 식으로 뭔가를 할 :이 (다소) 잘못된 HTML을 다루는에 올 때유형별로 잘못된 HTML 형식으로 요소 가져 오기

public static void main(String[] args) { 
    // Read in an HTML file from disk 
    // Retrieve all INPUT elements regardless of whether the HTML is well-formed 
    // Loop through all elements and retrieve their ids if they exist for the element 
} 

답변

2

HtmlCleaner 밖에 틀림없이 최고의 HTML 파서 중 하나입니다.

설명서는 일부 코드 샘플이 포함 된 here입니다. 당신은 기본적으로 getElementsByName() 방법을 찾고 있습니다.

다른 라이브러리를 고려중인 경우 Comparison of Java HTML parsers을 확인하십시오.

+0

+1 비교를 위해 – digiarnie

0

체크 Jtidy.

JTidy는 HTML 단정하는 HTML 문법 검사기 예쁜 프린터의 자바 포트입니다. Java가 아닌 다른 사촌과 마찬가지로 JTidy는 잘못된 HTML을 정리하는 도구로 사용할 수 있습니다. 또한 JTidy는 문서가 처리되는 DOM 인터페이스를 제공합니다. 실제로 은 JTidy를 실제 HTML 용 DOM 파서로 사용할 수있게합니다.

1

나는 tagsoup을 사용해 성공했습니다. Heres는 자신의 홈 페이지에서 간단한 설명 :

이 TagSoup, 대신 잘 형성되거나 유효한 XML 파싱이 발견 될 때, HTML을 파싱 것을 자바로 작성된 SAX 호환 파서의 홈 페이지입니다 야생 : 가난하고, 불쾌하고,야만 스럽다. TagSoup는 합리적인 응용 프로그램 설계와 유사하게이 물건을 처리해야하는 사람들을 위해 설계되었습니다. SAX 인터페이스를 제공함으로써 표준 XML 도구를 최악의 HTML에도 적용 할 수 있습니다. TagSoup에는 HTML 파일을 읽고 XHTML과 비슷한 HTML 또는 잘 구성된 XML을 생성 할 수있는 명령 줄 프로세서도 포함되어 있습니다.

관련 문제