2010-06-14 5 views
0

다른 페이지에서 정보 (텍스트)를 가져 오는 것이 가능하다는 것을 알고 있습니다.HTML 페이지의 텍스트 구문 분석

예를 들어, http://www.page.com/의 페이지는 인 news입니다. 이 div에서 텍스트를 가져 오는 방법은 무엇입니까?

+0

당신은 www.one.com에서하고 www.two.com에서 데이터를 수집하기로 할, 당신의 의도를 명확히해야합니까? – Zuul

+0

다른 페이지를 소유하고 있지 않는 한 다른 사람의 페이지 내용을 파싱하고 파싱하는 것이 좋지 않으며 많은 오버 헤드를 발생시킬 수 있고 많은 대역폭을 사용할 수 있습니다. –

답변

4

예, 다른 옵션 중에서는 HTML Simple DOM입니다.

예 :

$html = file_get_html('http://www.page.com/'); 
$mydiv = $html->find('div[id=news]', 0)->plaintext; 
+0

선택자의 관점에서 jQuery와 비슷한 HTML 단순 돔 파서를 사용하는 경우 +1 그러나 HTML DOM의 여러 인스턴스를 사용할 때 (즉, 반복에서) 쉽게 'clear()'메서드를 사용하는 것을 잊지 마시기 바랍니다 이 라이브러리를 사용하여 메모리 한도에 도달하려면 :) – migajek

+0

@migajek : 감사합니다. 그리고 이것은 단지 예일뿐입니다. OP는 자신의 사이트를 방문하여 자세한 정보를 얻으려고합니다. – Sarfraz

+0

나는 그들이 "clear"을 사용하도록 추천 된 어느 곳이라도 언급하지 않기를 두려워한다. 그래서 나는 그것을 여기에 썼다.) – migajek