왼쪽 및 오른쪽 따옴표가 포함 된 UTF-8로 인코딩 된 HTML 텍스트를 구문 분석하려고합니다. 하지만 saveHTML()을 사용하여 DOM에서 html 값을 다시 가져 오려고하면 따옴표는 항상 엉망이됩니다.DOM xpath 따옴표가 깨져
이제는 DOM에 넣기 전에 utf8_encoding을 포함한 여러 가지 방법을 시도해 보았습니다. ('1.0', 'UTF-8')을 생성자에 넣으려고 시도했지만 작동하지 않았습니다.
나는이를 해결하는 방법이 부족합니다. 따옴표를 HTML 엔티티로 변환하는 것은 나를위한 옵션이 아닙니다.
$a = "<html><body><div>won’t you, will you, won’t you, join the </div></body></html>";
$dom = new DOMDocument();
$dom->loadHTML($a);
$xpath = new DOMXPath($dom);
$tag = $xpath->query('//div');
foreach($tag as $t)
echo $dom->saveHTML($t);
반환 된 텍스트는 다음과 같습니다 : 여기
는 인용 부호를 나누기 간단한 예를 들어 당신이, wonât 당신이, 당신은 wonât 당신이 가입 할 것 는
문자열이 어떤 문자셋인지 알고 있습니까? 나는 그것이 utf8이 아니란 걸 확신한다. –
utf8이다. 그러나 나는 그 질문에서 말했다. 문자열에 utf8_encode를 사용하고 dom에 전달하면 같은 결과를 얻습니다. –