2011-01-09 2 views
1

가능한 중복 :
If you're not supposed to use Regular Expressions to parse HTML, then how are HTML parsers written?DOM은 어떻게 파싱됩니까?

내 질문은 간단하다 : 어떻게 현재 DOM 파서 실제로 문자열에서 DOM을 구문 분석 할 (XML, HTML, 또는 기타)?

나는 you shouldn't parse html with RegEx을 알고 있지만 DOM 파서가 RegEx를 사용하여 열기/닫기 태그의 패턴을 일치시킬 수는 없습니까? 또는 제공된 문자열을 문자 배열로 구문 분석하기위한 좋은 반복 알고리즘이 있습니까? 이것

+0

파서 구현에 따라 다릅니 까? –

+0

하지만이 정확한 질문에 신속하게 대답하는 것이 가장 좋습니다. 대부분 정규 표현식을 사용하지만 ** 토큰 화 **에만 사용합니다 (예 : 여는 태그와 닫는 태그 인식). – delnan

+0

나는 어떻게 든 그 질문을 놓쳤다. 그리고 나는이 사본을 닫도록 투표했다. – zzzzBov

답변

0

는 글쎄, 당신의 라인을 따라 기본적인 접근 방식으로 시작할 수 있습니다.