2011-12-31 2 views
0

자동으로 가져 오는 HTML 소스에서 동적으로 콘텐츠를로드하는 작업을하고 있으며 이전에 데이터를 얻기 위해 Regex를 사용하고 있지만 일부 친구는 DOM을 사용하는 것이 더 빠르다. 왜 그렇습니까?DOM 파싱과 Regex 사이의 성능

답변

3

DOM은 HTML을 구문 분석하도록 설계되었습니다. Regex를 사용하여 HTML을 구문 분석하는 것에 대한 게시는이 사이트에서 많은 사람들이 작업하게 만듭니다 (어제 여러 게시물을 보았습니다). 당신이하고있는 일에 따라 때때로 Regex를 사용하여 HTML에서 특정 항목을 얻거나 HTML에 특정 태그가 있는지 확인하지만 데이터를 가져 오거나 HTML을 구문 분석하려고하면 좋은 DOM 파서를 사용하는 것이 좋습니다.

DOM 파서의 종류에주의해야합니다. 예를 들어, PHP DOM 파서가 올바른 HTML을 필요로합니다 (예 : 내 경험상). HTML을 정리하여 사용하기 전에 정리해야합니다. 결과. 다음은 잘못된 HTML을 처리 할 수있는 간단한 DOM 구문 분석기입니다. http://simplehtmldom.sourceforge.net/index.htm 위의 요소를 사용하여 html의 요소 속성을 살펴본 결과 100 % 양수가 아니므로 항상 유효합니다.

관련 문제