큰 html 파일에서 정보를 추출 할 수있는 bashscript를 작성하려고합니다. 나는 매일 최신 신문을 자동으로 다운로드하기 위해 이것을 필요로한다 :). 최신 신문을 다운로드하려면 해당 ID를 알아야합니다. 그것을 얻으려면 링크를 파싱해야합니다. 내가 선을 추출하는 데 성공, 그bash를 통해 html 정보 추출
awk '/show.php\?id=/' index.html
와 AWK와 ID를 보유하고
<a href="show.php?id=914826">Latest Newspaper</a>
그래서 내가이 줄에서 필요로하는 것은 "914826"입니다 얻을. 이것은 내가 붙어있는 곳입니다. awk을 사용하여 전체 줄이 아닌 조각을 추출 할 수 있다고 생각하지 않습니다.
답변을 기다리십시오. 사전에 감사합니다, 사이먼
당신은 XSLT를 사용할 수는 .... 같이 xml2 명령을 확인 –
: http://stackoverflow.com/a/7058658/78602 – hipe