2010-07-04 5 views
1

원시 HTML 텍스트에서 링크를 제거하려면 어떻게해야합니까?텍스트 파일에서 링크 제거

Foo bar <a href="http://www.foo.com">blah</a> bar foo 

을하고 싶어 : 나는있어

이후

푸 바 ㅋ 바 foo는.

+0

당신이 특정 언어 – spinon

+0

작업하는 푸 바 ㅋ ㅋ는 링크의 소수로, 텍스트 파일에서인가, 아니면 완전히 일반적인 HTML입니까? 후자와 당신이 단지 빠르고 싼 것을 원한다면,'w3m -dump' 또는'lynx -dump'를 들여다보십시오. 반복 가능하거나 구성 가능한 도구를 원한다면 Brian의 대답은 맞습니다. 사용할 환경에 대한 HTML 파서를 찾으십시오. – sarnold

+0

@spinon - 그는 "SED"를 사용하고 있습니다. [Stream Editor] - UNIX ... @Marko ... 그의 질문 시작 부분에 REGEX를두면 문제가 해결되지 않을 것입니다. –

답변

2

HTML이 정규가 아니므로 regexps 및 this won't work in all but the simplest cases을 사용하여 HTML을 구문 분석하려고합니다. 훨씬 더 신뢰할 수있는 솔루션은 HTML 파서를 사용하는 것입니다. 많은 다른 언어에 대해 수많은 존재합니다.

2
sed -re 's|<a [^>]*>([^<]*)</a>|\1|g' 

하지만 브라이언의 대답은 맞다 : 이것은 매우 간단한 경우에 사용한다.

0

$ echo 'Foo bar <a href="http://www.foo.com">blah</a> bar foo' | awk 'BEGIN{RS="</a>"}/<a href/{gsub(/<a href=\042.*\042>/,"")}1'

바 foo는