정보를 얻기 위해 크롤링 페이지를 작성 중이며 Groovy에서 페이지 구문 분석과 관련된 많은 문제가 있습니다. 예를 들어, 나는 juniversal chardet를 사용하여 그냥 머리에 태그 페이지를 스캔 대부분의 시간을 작동 반 솔루션을했습니다,하지만 때로는 이러한 태그의 두 사람은 한 페이지에서 찾을 수 있습니다 :페이지에 두 개의 charset 태그가 필요합니까?
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
...
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
인가 거기에 사용할 표준 (처음, 마지막, 둘 다?) 또는 이것을하기위한 더 쉬운 방법이 있습니까? 감사.