2012-02-16 5 views
0

html 파일에서 모든 태그와 단어를 (시간순으로) 추출해야합니다. 다음은 파일의 예입니다. 하나 둘 thre 출력에서 ​​원하는 것은 배열 또는이 목록과 같습니다 : { "", "one", "two", "thre", "}} I jTidy 또는 Apache Tina와 같은 도구가 있지만 이러한 도구는 문서에서 텍스트 (또는 태그 만)를 추출하는 데 사용됩니다. 어떻게해야합니까?Java에서 HTML의 단어 및 태그 구문 분석

답변

1

JSoup 라이브러리를 사용하십시오. 그것은 자바에서 HTML 파싱을 믿을 수 없게 만든다.