0
오픈 소스 웹 스크래핑 도구 인 web harvest (http://web-harvest.sourceforge.net/)를 사용하고 있습니다.Web Harvest에서 특수 문자로 정규 표현식 만들기
사용하려고하는 정규식에는 "<", ">"문자가 있습니다 (들어오는 모든 HTML 태그를 제거하려고하기 때문에). 요소의 내용이 올바른 형식의 문자 데이터 또는 마크 업으로 구성되어야하기 때문에 문제가 발생합니다.
어떻게 든 정규식을 벗어날 필요가 있지만 어떻게 계산할 수 없습니다.
아이디어가 있으십니까?
HTML 구문 분석은 해결 된 문제입니다. 실제로 정규식을 사용하여 솔루션을 재발 명할 필요가 있다고 생각하십시오. 필수 SO 링크 : http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso