2010-02-15 5 views
0

해당 페이지에서 웹 사이트의 특정 데이터를 추출하고 싶습니다 ...다른 웹 사이트에서 자동으로 콘텐츠를 추출하는 방법은 무엇입니까?

특정 페이지의 모든 내용을 가져오고 싶지 않지만 일부분 만 필요합니다 (테이블 또는 content_div 내부의 데이터 일 수 있음)) 그리고 나는 웹 사이트의 모든 페이지에 반복적으로 그것을하고 싶다.

나는 그것을 어떻게 할 수 있냐?

답변

1

콘텐츠 검색을 위해 컬을 사용하고 개별 요소를 선택하려면 xPath를 사용하십시오.

저작권에 대해 알고 있어야합니다.

+0

예를 들어 특정 카테고리와 일치하는 웹 사이트에서 이미지를 가져 오려면 어떻게해야합니까? – Vijay

+0

Google 이미지 검색을 사용하여 검색을 사이트로 제한 할 수 있습니다. 그것은 작동하지 않을 수도, 어떻게 든 구글은 카테고리로 사진을 태그를 추가해야합니다. 이것은 또한 힌트입니다. – Paul

0

php crawler이 필요합니다. 열쇠는 strstr, strpossubstr과 같은 문자열 조작 함수를 사용하는 것입니다.

0

이렇게하는 방법이 있습니다. 그냥 재미로 나는 잘 알려진 소셜 네트워크에서 내 계정을 살펴보고 올바른 장소를 조사한 다음 XML 파일에 정보를 기록한 Windows 응용 프로그램을 만들었습니다. 이 정보는 다른 곳에서 가져올 수 있습니다. 그러나 이런 종류의 응용 프로그램은 내가 동의하지 않는 동기에 사용될 수 있으므로 결코 업로드하지 않았습니다.

RSS 피드를 사용하여 콘텐츠를 추출하는 것이 좋습니다.

0

나는 거미와 같은 것을 구현해야한다고 생각한다. XMLHTTP 요청을 만들고 내용을 가져온 다음 구문 분석을 수행 할 수 있습니다.

1

"다른 웹 사이트에서 콘텐츠를 추출하는 중"을 화면 긁기 또는 web scraping이라고합니다.

simple html dom parser이 작업을 수행하는 가장 쉬운 방법입니다.

관련 문제