2014-02-12 2 views
-1

이것은 주제가 아닐지 모르지만 누구든지 올바른 방향으로 나를 도울 수 있다면 ..... 또는이 질문을 올릴 수있는 올바른 장소입니까?웹 스크래핑 자동화 프로그램

누구든지 Windows 컴퓨터에서 사용할 수있는 좋은 자동 웹 스크래핑 프로그램을 제안 할 수 있습니까? 나는 프로세스를 자동화하고 5 분마다 사이트를 "긁어서"결과 XML을 다른 웹 사이트 나 데이터베이스로 내보낼 수 있도록 설정하고 싶습니까?

감사

+0

웹 스크래핑하려는 콘텐츠 유형은 무엇입니까? 그것은 단순한 정적 컨텐츠입니까? CSS 선택기, 웹 클라이언트 및 HTML 구문 분석기가있는 XPath 또는 라이브러리가 필요합니다. 동적 콘텐츠입니까? 그런 다음 자바 스크립트에서 원하는대로 처리하고 도구로 다듬을 수있는 방법이 필요합니다. 그것은 단지 내용이 페이지에 어떻게 표시되는지에 달려 있습니다. 나는 이것에 대한 설명이 필요하다고 생각한다. –

+0

안녕하세요 Jaxrtech는 답장을 보내 주셔서 감사합니다. atm im은 안드로이드 앱에서 jsoup를 사용하여 페이지를 다 쳤습니다. 즉, 테이블과 같은 단순한 콘텐츠이지만 모든 페이지에 대해 (10 초 정도) 할 시간이 필요합니다. 컴퓨터에서 파싱을 수행 한 다음 모든 데이터 (구조는 그대로)를 내 응용 프로그램에서 jsoup로 한 번에 모두 긁어 모으기위한 웹 페이지에 업로드하는 것에 대해 생각해보십시오. 아마도 이것이 최선의 방법은 아니지만 아이디어를 가지고 장난감을 시작하고 프로세스 속도를 높이기 시작했습니다. 너는 무엇을 묻는 것이 끝날 수 있다고 생각하니? 또는 한 곳에서 모든 데이터를 가져 오는 더 좋은 방법입니까? –

+0

... 누구든지 코멘트를 downvoted 좋았을까요? 나는 이것이 질문을하는 정확한 장소인지 확실하지 않고 답변을 위해 다른 곳에서 행복하게 지적 할 것이라고 말했습니다. –

답변

1

실제 프로세스가 너무 오래 걸리는 경우, 그 10 초 네트워크 지연 시간이 아닌 실제 구문 분석되고 그 자체를 긁어에 대한 가능성. 이 경우, 아직 수행하지 않았다면 순차적으로 실행하지 않고 병렬로 실행하고 싶을 것입니다.

이 문제에 대해 여러 가지 방법이 있으므로보다 구체적인 문제가있는 경우 도움이됩니다. 전화로 파싱을 할 수 있습니다. 그 이유가 무엇이든간에 너무 문제가 있다면 제 생각에는 전화 클라이언트가 필요한 데이터를 얻기 위해 상호 작용하도록 별도의 HTTP REST 서버를 구축 할 것입니다.

이것에 대해 여러 가지 방법이 있으며, 이는 단순히 권장 사항입니다. 보다 구체적인 답변을 원한다면 좀 더 구체적인 질문이 필요합니다. 당신이 하나를 실행하는 경우 다음 speific 프로그래밍 문제를 묻는 것을 고려하십시오.

+0

자, 조언과 제안에 감사드립니다. –

+0

문제 없습니다. 다음 번에 더 구체적으로 시도해보십시오.하지만 언제나 시도하고 평가할 수있는 옵션이 있습니다. –