일부 html 파일이 있고 일부 태그 사이에 내용을 추출하고 싶습니다. 페이지 제목 태그가 지정된 콘텐츠가 여기에 있습니다.HTML 파일의 특정 태그 찾기
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
난 그냥 태그 원하는 : 머리 쪽 을하지만, 두 번째 단락에서 볼 수있는 바와 같이, 마지막 태그는 P로 시작하지만 내 욕망 태그하지 않은, 나는 그것의 내용을 원하지 않는 . 다음 스크립트를 사용하여 원하는 텍스트를 추출했지만 필자의 예제에서 마지막 태그와 같은 태그를 필터링 할 수는 없습니다 ... <p>
태그를 어떻게 추출 할 수 있습니까?
grep "<p>" $File | sed -e 's/^[ \t]*//'
나는 그것을 추가 할 필요가, (I 출력에 표시하지 않으려는) 마지막 태그는 바로 내 원하는 태그 중 하나 (내 예에서와 같이) 및 사용 grep 명령 후 모든 그 라인의 내용은 출력으로 반환됩니다 ... (이것은 내 문제입니다)
XSLT를 시도하여 URL 스크립트를 통과하는 것은 (범용 도구입니다 및 언어). 'xsltproc' 예제를위한 구글. – tripleee
유효한 XHTML (즉, 유효한 XML)을 가지고 있다면 분명 더 쉬운 경로입니다 –
와우, XSLT는 이상한 도구로 보이지만 시간이 없습니다. 나는 1 시간 만에 그것을해야만하고, 나는 xsl 파일을 만드는 방법을 배우는 데 시간을 소비해야만하는 것 같다. – Hakim