0
CURL 요청을 통해 데이터를 가져 오는 중이며 HTML을 파싱하는 중 일부 속성이 깔끔하게 파싱되지 않습니다. 코드 조각 HTML 코드HTML 태그 스팟의 스팬 속성 span
<div class="ftlt" style="width:250px;">
<div class="tdiv"><span class="prop_price_img"></span><span class="property_price">PROPERTY_PRICE</span></div>
<p class="adPrice">AREA</p>
<h4>
<p style="float:left;width:251px;font-family:Arial, Helvetica, sans-serif;font-size:13px;padding:2px 10px 10px 0px;"><a href="some link" title="title">TITLE</a>,
<span style="color:#666;"> CITY_NAME.</span>
<a title="title, Sale" style="color:#3266CC;font-size:12px;text-decoration:underline;">View on map</a></p>
</h4>
<p style="font-weight:bold;color:#666;">
Premium
</p>
<div class="clr"></div>
</div>
의
나는 깔끔하게 CITY_NAME 요소에 액세스해야합니다. 나는 변신지고
$spans = $html->find(div.ftlt span);
$city_value=strip_tags($spans[2]);
이 $city_value
으로 HTML DOM을 통해 해당 노드를 가져올 수 있었다. removeAttribute 메소드를 시도했습니다. 제대로하지 않았을 수도 있습니다.
regex를 적용 할 수 있다면 어떻게 알고 싶습니까?
나는 그것을 시도했다. 그것은 결과를 Ã, Â CITY_NAME로 준다. – user1425322
들어오는 HTML의 인코딩을 확인 했습니까? – rsplak
utf8_decode()를 시도해보십시오 curl_exec ... 또는 인코딩이 utf8이 아닌 경우 인코딩을 변경하려면 iconv를 사용하십시오 – rsplak