2012-07-13 2 views
0

CURL 요청을 통해 데이터를 가져 오는 중이며 HTML을 파싱하는 중 일부 속성이 깔끔하게 파싱되지 않습니다. 코드 조각 HTML 코드HTML 태그 스팟의 스팬 속성 span

<div class="ftlt" style="width:250px;"> 
    <div class="tdiv"><span class="prop_price_img"></span><span class="property_price">PROPERTY_PRICE</span></div> 
    <p class="adPrice">AREA</p> 
    <h4> 
     <p style="float:left;width:251px;font-family:Arial, Helvetica, sans-serif;font-size:13px;padding:2px 10px 10px 0px;"><a href="some link" title="title">TITLE</a>, 
        <span style="color:#666;"> CITY_NAME.</span> 

       <a title="title, Sale" style="color:#3266CC;font-size:12px;text-decoration:underline;">View on map</a></p> 
    </h4> 
    <p style="font-weight:bold;color:#666;"> 
      Premium 
      </p> 
    <div class="clr"></div> 
    </div> 

나는 깔끔하게 CITY_NAME 요소에 액세스해야합니다. 나는 변신지고

$spans = $html->find(div.ftlt span); 
$city_value=strip_tags($spans[2]); 

$city_value으로 HTML DOM을 통해 해당 노드를 가져올 수 있었다. removeAttribute 메소드를 시도했습니다. 제대로하지 않았을 수도 있습니다.

regex를 적용 할 수 있다면 어떻게 알고 싶습니까?

답변

0
$spans = $html->find(div.ftlt span); 
$city_value=$spans[2]->nodeValue; 

nodeValue을 사용하지 않습니까?

+0

나는 그것을 시도했다. 그것은 결과를 Ã, Â CITY_NAME로 준다. – user1425322

+0

들어오는 HTML의 인코딩을 확인 했습니까? – rsplak

+0

utf8_decode()를 시도해보십시오 curl_exec ... 또는 인코딩이 utf8이 아닌 경우 인코딩을 변경하려면 iconv를 사용하십시오 – rsplak