2011-02-10 5 views
0

오픈 소스 웹 스크래핑 도구 인 web harvest (http://web-harvest.sourceforge.net/)를 사용하고 있습니다.Web Harvest에서 특수 문자로 정규 표현식 만들기

사용하려고하는 정규식에는 "<", ">"문자가 있습니다 (들어오는 모든 HTML 태그를 제거하려고하기 때문에). 요소의 내용이 올바른 형식의 문자 데이터 또는 마크 업으로 구성되어야하기 때문에 문제가 발생합니다.

어떻게 든 정규식을 벗어날 필요가 있지만 어떻게 계산할 수 없습니다.

아이디어가 있으십니까?

+0

HTML 구문 분석은 해결 된 문제입니다. 실제로 정규식을 사용하여 솔루션을 재발 명할 필요가 있다고 생각하십시오. 필수 SO 링크 : http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso

답변

1

정규 표현식 XML을 만들려면. <&lt;>으로 바꾸고 &gt;으로 바꾸어보세요. 마찬가지로 일반 표현식에 &이있는 경우이를 &amp;으로 바꿔야합니다.

또한이 작업을 위해 정규식 대신 HTML 파서를 사용하는 것이 좋습니다.