2010-07-06 2 views
2

java html 파서를 찾고 있습니다. (자바 잘 알고 있습니다. 내 나쁜 php -이 방법으로 HTML 파서가 어떻게 작동하는지 이해하고 싶습니다.) PHP의 간단한 HTML dom.PHP의 간단한 html dom과 같은 java html 파서를 찾고 있습니다.

감사

+0

질문을 올바르게받지 못했다고 생각합니다.하지만 "자바 html 파서"에 대해 Google을 사용 했습니까? – Bozho

+0

네, 그냥 간단한 HTML DOM과 비슷한 파서 엔진을 원합니다. 사용하지 말아요. 코드에서 어떻게 작동하는지 이해하고 싶습니다. – Yosef

답변

3

시도 jsoup. 내가 아는 한 최고의 HTML 파서입니다.

+1

@Yosef : 파서가 어떻게 작동하는지 이해하려면 소스 jar를 다운로드하고 IDE의 디버거에서 구문 분석을 수행하는 것이 좋습니다. 자세한 내용은 http://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/parser/Parser.java의 parse() 메소드를 참조하십시오. 재귀 파생 파서입니다. HTML 큐의 다음 문자를보고 현재 컨텍스트에 따라 자식 태그 또는 텍스트 데이터를 만들거나 닫기 태그가 발견되면 요소 스택을 팝업합니다. 구문 분석의 단순성은 잘못된 입력 HTML을 처리하여 다소 복잡합니다. (저는 jsoup의 저자입니다) –

1

TagSoup, 실제 지저분한 HTML에서 소요되며 사용자의 ContentHandler에 SAX XML 이벤트를 트리거하는 SAX 파서를 사용해보십시오. 수동으로 또는 XPath를 통해 걸을 수있는 JDOM 문서를 빌드하려면 JDOM과 함께 사용하는 것이 좋습니다.

관련 문제