2011-08-03 2 views
0

가능한 중복 가져 : 나는 다른 게시물을 많이 겪었 그들 모두는 어떤 고정 된 앵커 태그 형식을 따를 것을 본 적이
Grabbing the href attribute of an A element완벽한으로, preg_match_all는 href가

합니다. 그들 대부분은 앵커 태그 형식이 <a href="http://www.example.com/">Hello</a> .. 그리고 어쩌면 <a 후에 target 속성이라고 가정합니다.하지만 태그에 나타날 수있는 모든 앵커 태그의 href와 일치하는 정규식을 작성하려고합니다. alt, title, target 또는 어쩌면 그 둘 사이에 나타날 수 있습니다. 앵커 태그가 큰 따옴표 대신 작은 따옴표를 사용하는 또 다른 경우가 있습니다.
저는 30 분 동안 이것을 시도해 본 결과가 없습니다. 그래서 여기에 게시하십시오.

+0

정말 많은 게시물을 보았다면 어디에서나 DOM 파서에 대한 답변을 볼 수 있습니다. – k102

+0

@ k102, Gordon 다른 답변에 대한 의견을 참조하십시오. –

+0

@Gordon 다른 답변에 대한 의견을 주셔서 감사합니다. : P –

답변

5

HTML을 정규 표현식으로 구문 분석하지 않으려면 DOMDocument 또는 Simple HTML DOM Parser과 같은 라이브러리를 사용하십시오.

+0

이미 생각했습니다. 그러나 의심했다. 이 라이브러리를 사용하면 처리 시간이 증가하지 않을까요? 저는 분당 앵커 태그 수천 개를 파싱하고 있습니다. 그래서 확신하고 싶었습니다. –

+0

아니면 처리해야 할 것이 너무 많아서 라이브러리를 사용하는 것이 더 나은가? –

+1

@Bibhas DOM은 기본 확장 프로그램입니다. 그리고 프로파일 링없이 성능에 대해 걱정할 필요가 없으며 중요한 부정적인 영향을 미친다는 것을 알게됩니다. 또한 http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662 – Gordon

관련 문제