원시 HTML 텍스트에서 링크를 제거하려면 어떻게해야합니까?텍스트 파일에서 링크 제거
Foo bar <a href="http://www.foo.com">blah</a> bar foo
을하고 싶어 : 나는있어
이후
푸 바 ㅋ 바 foo는.
원시 HTML 텍스트에서 링크를 제거하려면 어떻게해야합니까?텍스트 파일에서 링크 제거
Foo bar <a href="http://www.foo.com">blah</a> bar foo
을하고 싶어 : 나는있어
이후
푸 바 ㅋ 바 foo는.
HTML이 정규가 아니므로 regexps 및 this won't work in all but the simplest cases을 사용하여 HTML을 구문 분석하려고합니다. 훨씬 더 신뢰할 수있는 솔루션은 HTML 파서를 사용하는 것입니다. 많은 다른 언어에 대해 수많은 존재합니다.
하지만 댓글 등에서 태그에 관심이 있으십니까? –
함께 시도 :
sed -e 's/<a[^>]*>.*<\/a>//g' test.txt
문제의 예제에서 "Foo bar blah bar foo"대신 "Foo bar bar foo"를 생성합니다. 올바른 버전을 보려면 danlei의 해결책을 참조하십시오. – Bolo
sed -re 's|<a [^>]*>([^<]*)</a>|\1|g'
하지만 브라이언의 대답은 맞다 : 이것은 매우 간단한 경우에 사용한다.
$ echo 'Foo bar <a href="http://www.foo.com">blah</a> bar foo' | awk 'BEGIN{RS="</a>"}/<a href/{gsub(/<a href=\042.*\042>/,"")}1'
바 foo는
당신이 특정 언어 – spinon
작업하는 푸 바 ㅋ ㅋ는 링크의 소수로, 텍스트 파일에서인가, 아니면 완전히 일반적인 HTML입니까? 후자와 당신이 단지 빠르고 싼 것을 원한다면,'w3m -dump' 또는'lynx -dump'를 들여다보십시오. 반복 가능하거나 구성 가능한 도구를 원한다면 Brian의 대답은 맞습니다. 사용할 환경에 대한 HTML 파서를 찾으십시오. – sarnold
@spinon - 그는 "SED"를 사용하고 있습니다. [Stream Editor] - UNIX ... @Marko ... 그의 질문 시작 부분에 REGEX를두면 문제가 해결되지 않을 것입니다. –