0

나는 웹 스크래핑을 많이하고 각 프로젝트에 대해 원시 페이지/파일을 네임 스페이스 디렉토리에 저장하는 일종의 프레임 워크/백엔드를 다시 작성하고 때로는 날짜, 오류 메시지 등을 추적하기위한 데이터베이스까지도 재 작성합니다.데이터 보관, 데이터 저장을 처리하는 데이터 스크래핑 프레임 워크가 있습니까?

이런 종류의 작업을 위해 이미 구축 된 프레임 워크가 있는지 궁금합니다. 나는 Nokogiri/Mechanize/etc ...와 같은 HTML 파서를 사용하는 조합 인 실제 스크래핑 작업 자체를 의미하지는 않지만 수집 한 데이터와 스크래퍼의 관리를 의미합니다. 내가하는 일 중 일부에는 데이터 수집 단계가 있습니다.

:

사이트를 통해
  1. 반복 할 다운로드 원료 페이지
  2. 저장된 원시 페이지를 파싱 데이터 추출
  3. 면도 데이터 (이 불가능할 수도있는 다른 외부의 프로세스를 포함 할 수있다 2 단계에서)

그래서 스크래퍼가 언제 시작했는지, 어떻게했는지, 그리고 원시 데이터를 저장 한 위치를 추적하는 데 도움이되는 모든 시스템이 훌륭합니다. 나는 MongoDB를 사용하여 자신 만의 일을 쓰려고 생각했지만, 누군가가 내가 가진 것보다이 일을 잘했다고 확신한다.

+0

데이터 마이닝은 데이터 수집이 아닌 분석입니다. –

+0

Nutch가 Solr에 데이터를 저장합니다. 도움이된다면 ... –

답변

0

irobotsoft 스크레이퍼가 이러한 모든 문제를 해결한다는 것을 알고 있습니다. 그것은 간단한 UI로 내장 된 내부 정렬 및 데이터베이스 작업과 함께 html 페이지를 청소하고 데이터를 저장하는 많은 기능을 가지고 있습니다.

또한 무료입니다.