나는 웹 스크래핑을 많이하고 각 프로젝트에 대해 원시 페이지/파일을 네임 스페이스 디렉토리에 저장하는 일종의 프레임 워크/백엔드를 다시 작성하고 때로는 날짜, 오류 메시지 등을 추적하기위한 데이터베이스까지도 재 작성합니다.데이터 보관, 데이터 저장을 처리하는 데이터 스크래핑 프레임 워크가 있습니까?
이런 종류의 작업을 위해 이미 구축 된 프레임 워크가 있는지 궁금합니다. 나는 Nokogiri/Mechanize/etc ...와 같은 HTML 파서를 사용하는 조합 인 실제 스크래핑 작업 자체를 의미하지는 않지만 수집 한 데이터와 스크래퍼의 관리를 의미합니다. 내가하는 일 중 일부에는 데이터 수집 단계가 있습니다.
예:
사이트를 통해- 반복 할 다운로드 원료 페이지
- 저장된 원시 페이지를 파싱 데이터 추출
- 면도 데이터 (이 불가능할 수도있는 다른 외부의 프로세스를 포함 할 수있다 2 단계에서)
그래서 스크래퍼가 언제 시작했는지, 어떻게했는지, 그리고 원시 데이터를 저장 한 위치를 추적하는 데 도움이되는 모든 시스템이 훌륭합니다. 나는 MongoDB를 사용하여 자신 만의 일을 쓰려고 생각했지만, 누군가가 내가 가진 것보다이 일을 잘했다고 확신한다.
데이터 마이닝은 데이터 수집이 아닌 분석입니다. –
Nutch가 Solr에 데이터를 저장합니다. 도움이된다면 ... –