2012-09-18 2 views
0

스크립트를 실행하여 html 파일에서 여러 문자열을 추출하고 모두 새 파일로 가져 오려고합니다. 더 구체적으로 말하면, 문자열이 모두 인 경우 모든 <td></td> 쌍 사이의 문자열을보고 문자열을 추출해야합니다.awk를 사용하여 고정 길이 문자열을 추출하는 방법은 무엇입니까?

+1

awk는 HTML 파서가 아닙니다. –

+0

html 파일을 일반 파일로 생각하면 어떨까요? – DrXCheng

+0

어때? 구조화 된 데이터를 조작 할 때 행 지향 도구를 사용하지 마십시오. – tripleee

답변

1

awk은 xml을 구문 분석하는 데 적합한 도구가 아니지만이 간단한 경우에 다음이 적합 할 수 있습니다.

awk '/<\/$/ && length == k + 2' RS='td>' k=$K input 

이 출력됩니다 각 문자열을 더한 뒤 </. 이는 해킹이므로 신뢰할 수 있고 견고한 솔루션으로 취급해서는 안됩니다.

관련 문제