중국어 웹 사이트에서 HTML 소스를 추출하는 스크립트를 작성하고있었습니다. 나는 file_get_contents가 중국어 웹 사이트를 열지 못했습니다.
내가 아니라 내 대상 웹 사이트에 콘텐츠 형식을 발견, 아래$html = file_get_contents($url);
echo $html;
얻을 결과, 웹 파일을 읽을
file_get_contents에게을 시도
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
그래서 나는 conv를 시도했다. 상기 옵션으로 UTF-8로 결과 현재 보이고
$html = file_get_contents('http://newhouse.bt.soufun.com/house/web/Search_Result.php');
$html = mb_convert_encoding($html,'utf-8','GB2312');
echo $html;
,
결과를 erting 것은 I 페이지의 적절한 소스를 얻을 수 있으며, 이는 상기 해석 할 수 없었던 . HTML을 구문 분석하고 DOM 파서를 사용하여 구조화 된 데이터를 가져와야합니다. 여기에 더 이상 구문 분석 할 수없는 잘못된 HTML 응답이 나타납니다.
나는 CURL뿐만 아니라 file_get_contents를 시도했다.
현재이 시점에서 고민 중입니다. 도움이나 제안을 보내 주시면 대단히 감사하겠습니다. 고맙습니다.
그냥 소스 인코딩을 가정하지 마십시오, 동부 국가는 알파벳 더 편리 인코딩의 모든 종류를 사용합니다. '$ html = mb_convert_encoding ($ html, 'utf-8', mb_detect_encoding ($ html));'문제가 아니라고 생각합니다. 바이너리 내용을 다시 얻고있는 것 같습니다. – GordonM
@GordonM 예. 바이너리 내용을 다시. – Surabhil