추출 텍스트

나는이 두 가지를 제외하고 거의 잘 작동 다음 스크립트 :추출 텍스트

나는 아직도 unknows 태그가 같은 <note>, <to>, 또는 <?xml version="1.0" encoding="ISO-8859-1"?>
나는 또한 자바 스크립트가 아니라 스크립트는, 내가 //text()[not(self::script)] 그들을 제외하려고했지만이는 XPath에게

스크립트 나누기 :

을

$contents = file_get_contents("http://www.w3schools.com/php/php_xml_dom.asp"); 
$dom = new DOMDocument(); 
@$dom->loadHTML($contents); 
$dom->preserveWhiteSpace = false; 
$xpath = new DOMXPath($dom); 
// see http://www.w3schools.com/xpath/xpath_syntax.asp 
$hrefs = $xpath->evaluate("//text()"); 
for ($i = 0; $i < $hrefs->length; $i++) 
    echo $hrefs->item($i)->nodeValue;

웹 페이지에서 텍스트를 추출하는 더 좋은 해결책이 있습니까?

참고 : 간단히 strip_tags을 사용할 수는 있지만 DOMDocument를 고수하고 싶습니다.

출처

2012-03-18 Benjamin Crouzier