으로 래핑되지 않은 모든 URL을 매칭합니다. 'a'태그로 래핑되지 않는 HTML의 URL과 일치 할 수있는 정규 표현식 패턴을 찾으려면 'a'태그로 추가로 래핑하십시오. (강조되지 않은 모든 링크를 강조 표시합니다).<a> 태그
입력은 'a', 'b', 'i', 'br', 'p' 'img'태그가 허용되는 단순 HTML입니다. 다른 모든 HTML 태그는 입력에 나타나서는 안되지만 위에 언급 된 태그는 어떤 조합 으로든 나타날 수 있습니다.
그래서 패턴은 기존 'a'태그의 일부인 모든 URL을 생략하고 'a'태그로 래핑되지 않은 평범한 텍스트이며 따라서 강조 표시되지 않고 하이퍼 링크가 아닌 다른 모든 링크와 일치해야합니다. pattern이 http : //, https : // 또는 www.로 시작하고 .net, .com으로 끝나는 URL과 일치하면 좋을 것입니다. 또는 URL이 http : //, https : // 또는 www로 시작하지 않으면 .org.
나는 위에서 설명한 것보다 더 단순한 경우와 일치하도록 '(?! < [aA] [^>] +>) http://[a-zA-Z0-9._-]+ (?!)과 같은 것을 시도했지만이 작업은 그렇지 않은 것 같습니다. 분명한.
도움을 주셔서 감사합니다.
+1 BeautifulSoup를 제안했습니다. 이 문제는 순수 정규식 솔루션에 적합하지 않습니다. –