2012-05-22 2 views
0

의 문서 타입을 추출하는 방법은 HTML 페이지 수도 XHTML, HTML HTML 또는 WML, C 또는 C를 사용하여이 될 ++의 문서 타입을 추출해야합니다. 입력을 HTML 파일이나 배열로 제공합니다. HTML 페이지는 HTML 결과 인 경우 같은 페이지에 관하여에해야 될 다음 헤더를 포함 does't 경우는 XHTML 결과 = XHTML 인 경우C는 : HTML 페이지

는 =이 나 ....

+1

무엇을 제공해야합니까? –

+0

html 페이지에 헤더가 포함되어 있지 않으면 HTML 결과 = html이거나 xhtml 결과 = xhtml 인 경우 결과가 페이지와 관련되어 있어야합니다. – sunmoon

+0

'res' ? 일반적으로 'res'는 'resolution'의 줄임말이지만 여기서 어떻게 적용 할 수 있는지 보지 못합니다. –

답변

1

이 서로 다른 두 것 같다 HTML 질문 :

1) 단순히 내가 같은 간단한 것을 제안려고하는 HTML 페이지,에서 "DOCTYPE"선언을 잡아하는 방법 :

char doctype[1024]; 

void 
get_doctype(char *html_page) 
{ 
    sscanf(html_page, "<!DOCTYPE %1024s>", doctype); 
} 

그리고 아마도를 얻을 수 알려진 doctype 문자열과 일치 열거 된 값.

하지만 Doctype 선언이없는 페이지 유형을 찾는 방법 2)을 묻는 중입니다. 그게 더 어렵고 각 페이지에 대해 여러 개의 정답이있을 수 있습니다. libxml과 같은 도서관에 아웃소싱을 제안합니다. 입력 스트림을 특정 유형의 문서로 확인하는 기능이 있습니다.

+0

안녕하세요, 좋은 Ans, ** **이 결과를 원한다면 *** XHTML 1.0 Transitional *** 결과가 xhtml이 아니고 html 사이트에도 동일해야한다. – sunmoon