0
스크립트를 실행하여 html 파일에서 여러 문자열을 추출하고 모두 새 파일로 가져 오려고합니다. 더 구체적으로 말하면, 문자열이 모두 인 경우 모든 <td>
과 </td>
쌍 사이의 문자열을보고 문자열을 추출해야합니다.awk를 사용하여 고정 길이 문자열을 추출하는 방법은 무엇입니까?
스크립트를 실행하여 html 파일에서 여러 문자열을 추출하고 모두 새 파일로 가져 오려고합니다. 더 구체적으로 말하면, 문자열이 모두 인 경우 모든 <td>
과 </td>
쌍 사이의 문자열을보고 문자열을 추출해야합니다.awk를 사용하여 고정 길이 문자열을 추출하는 방법은 무엇입니까?
awk
은 xml을 구문 분석하는 데 적합한 도구가 아니지만이 간단한 경우에 다음이 적합 할 수 있습니다.
awk '/<\/$/ && length == k + 2' RS='td>' k=$K input
이 출력됩니다 각 문자열을 더한 뒤 </
. 이는 해킹이므로 신뢰할 수 있고 견고한 솔루션으로 취급해서는 안됩니다.
awk는 HTML 파서가 아닙니다. –
html 파일을 일반 파일로 생각하면 어떨까요? – DrXCheng
어때? 구조화 된 데이터를 조작 할 때 행 지향 도구를 사용하지 마십시오. – tripleee