2011-08-26 4 views
0

여러 (약 1600 개의 읽음) HTML 페이지를 구문 분석하고 각 파일에서 다음 태그의 내용을 추출해야합니다.변형 된 XML/HTML 구문 분석

 
    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">TEXT I WANT IS HERE 

(이것은 실제로 HTML의 텍스트 영역 태그로 의미) 내가이 DOMparser를 사용할 수 있다고 생각했지만 파일이 너무 많은 오류를 포함하고, 그래서 여기에 또 다른 질문에서 유래에서 JTidy를 가로 질러왔다, 그리고 나는 그것을 사용하려고했습니다 ...

하지만 그것은 나던 DOM 파서를 사용할 수 있도록 모든 페이지의 HTML을 XHTML로 변환 할 수없는 것 같습니다.

나는 그때 정규식을 사용할 수 있다고 생각하지만, 나는 확실히 그 텍스트를 당겨하는 데 필요한 특정 표현을 찾을 수 couldnt는, 또한 나는 ... HTML을 구문 분석 정규식을 사용하지 말라고 여러 질문/답변 건너 온

그래서 본질적으로 내 질문은 거기에 내가 다른 형식의 HTML을 가지고 텍스트를 얻기 위해 취할 수 있습니까?

답변

1

XHTML로 변환 할 필요없이 JTidy로 직접 문서를 구문 분석 할 수 있어야합니다. 얼마 전 부여 된 여러 번 해봤지만 꽤 잘 못된 HTML로 잘 돌아갔다.

EDIT : 마지막으로 HTML 파일을 구문 분석해야하는 또 다른 옵션은 TagSoup입니다. GPL 라이센스로 인해 상용 제품에서 사용할 수는 없지만이 기능이 내부 도구로 필요하면 작동 할 수도 있습니다.

+0

건배 ... tags3p ... –

+0

Im 나는 TagSoup이 그가 갈 방법이라고 생각하기 때문에 이것을 대답으로 받아 들일 것이다. 나는 regex를 사용하는 것으로 되돌아 가서 내 문제를 해결할 수 있었고 나에게 맞는 패턴을 발견했다 ... –

관련 문제