2015-01-14 3 views
1

다른 웹 사이트 (이 경우 중국어)에서 실행되는 웹 크롤러가 있습니다.중국어 문자 인코딩 (UTF-8, GBK)

이제 데이터를 검색하여 내 웹 사이트에 표시하면 한자가 모두 가비지가됩니다. 자, 문자 인코딩에 대해 읽었습니다. 그리고 UTF-8이 일반적으로 최고의 인코딩임을 알게되었습니다.

이제는 UTF-8을 사용할 때 문제가 발생합니다. WEBSITE-1에서 크롤링 된 데이터는 올바르게 표시되지만 WEBSITE-2에는 표시되지 않습니다.

WEBSITE-2의 경우 문자 인코딩 gb18030이 올바르게 작동합니다.

제 질문은 일반적인 솔루션을 구축 할 수 있도록 웹 사이트의 문자 인코딩을 알 수있는 방법이 있습니까? 내 웹 사이트에서 사용할 문자 인코딩을 알 수있는 페이지를 렌더링 할 수 있습니다. 이 방법으로 나는 백엔드에서 코드를 작성할 수 있으며 실제로 프론트 엔드에서 페이지를 여는 데 필요한 인코딩이 무엇인지 걱정하지 않아도됩니다.

지금 당장 UTF-8 중국어 문자 1 개와 GB18030 중국어 문자 문자 2 개가 있습니다.

+0

에 대한 메타 태그 "문자 세트"에 대한 HTML 메타 태그 "의 Content-Type"를 사용 이것에 대한 알고리즘은 HTML5 스펙에 있습니다. – Mgetz

답변

0

는 HTML < 5 HTML 5

이 페이지가 자신의 인코딩이 무슨 말을 감지 할 필요가 W3schools charset