2010-02-07 5 views
-1

www.marktplaats.nl에서 데이터를 긁어 내고 싶습니다. Excel/Access에서 스크랩 된 설명, 가격, 날짜 및보기를 분석하려고합니다.자바 스크립트와 프레임을 사용하는 웹 페이지를 긁습니다.

Ruby (nokogiri, scrapi)로 데이터를 긁어 내려고했지만 아무 것도 효과가 없었습니다. (잘 작동하는 다른 사이트에서) 주요 문제는 예를 들어 selectorgadget과 add-on firebug (Firefox)가 페이지를 긁어 내는데 사용할 수있는 CSS를 찾지 못한다는 것입니다. 다른 사이트에서는 selectorgadget 또는 firebug로 CSS를 추출하여 nokogiri 또는 scrapi와 함께 사용할 수 있습니다. 경험이 부족하기 때문에 문제를 식별하기가 어렵 기 때문에 해결책을 찾는 것이 쉽지 않습니다.

어디에서이 문제를 해결할 수 있는지, 비슷한 긁어 모으는 과정에 대한 정보를 어디서 찾을 수 있는지 알려주세요.

미리 감사드립니다.

+0

시도한 내용과 얻은 결과를 조금 자세히 설명해 주시겠습니까? –

+2

http://www.marktplaats.nl/robots.txt 하단을보십시오. 허가를 요청 했니? 그렇지 않다면 법을 어 기고 있으며 계속한다면 ISP에 블랙리스트에 올리거나보고 할 수 있습니다. – BalusC

+2

Mello : 질문에서 모든 중요한 부분을 제거한 것을 보았습니다. 마크 트랙입니다. 추적하니?! – hoju

답변

0

iframe은 문제가되지 않습니다. 삽입 된 iframe URL에 직접 액세스하면됩니다. 자바 스크립트를 사용 중지하지 않으면 브라우저에서 리디렉션됩니다.

설명 및 날짜는 HTML 소스에서 직접 추출 할 수 있습니다. 그러나 가격은 그 (것)들을 긁는 것을 더 성가 시게 할 심상이다.

0

IRobotSoft 웹 스크레이퍼를 사용해보세요. 그것은 좋은 프레임을 지원하고 무료입니다.

1

저는 웹 쿼리를 사용하여 완벽하게 작동합니다. mrexcel을 검색하면 YouTube에서 Excel로 스크래핑에 대해 많이 알 수 있습니다. 감사합니다. Mello

관련 문제