2010-06-08 4 views
0

문자열의 태그 사이에있는 텍스트를 가져 오는 가장 빠르고 쉬운 방법은 무엇일까 궁금합니다.
예를 들면 다음과 같습니다. Lorem ipsum <a>dolor sit amet</a>, <b>consectetur</b> adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
그리고 태그 <a> </a><b> </b> 사이에있는 텍스트를 찾아야합니다.웹 소스의 태그 사이의 내용 일치

감사합니다.

답변

1

HTML을 구문 분석하는 것은 매우 어렵습니다. 왜냐하면 웹 페이지가 거의 정확하지 않기 때문에 일치하지 않는 태그와 이상한 것을 많이 발견하게됩니다.

현실 세계 페이지의 경우 HTMLAgilityPack을 사용하십시오.

0
.+<a>(.+)</a>.+<b>(.+)</b>.+ 

첫 번째 일치 그룹에는 A 태그와 두 번째 그룹 사이의 텍스트 (B 태그 사이)가 포함됩니다.

+0

'{}'대신'()'을 사용 했습니까? – Amarghosh

+0

@Amarghosh : 네, 고마워요! 실수로 VS 정규식과 혼합 됨 – abatishchev

1

<a>(.*)</a>.*<b>(.*)</b>이 경우에는 일 때 을 사용할 수 있지만, 일반적으로 html을 정규식으로 구문 분석하는 것은 좋지 않습니다. 대신 HTML/XML 구문 분석기를 사용하십시오.

시도 HTMLAgilityPack :이 SO post에 사용 방법이 설명되어 있습니다.

관련 문제