많은 다른 지방 정부 웹 사이트에서 공개 데이터를 긁어 모으고 있습니다. 이 데이터는 표준 형식 (XML, RSS 등)으로 제공되지 않으므로 HTML에서 스크랩해야합니다. 나는이 데이터를 긁어내어 나중에 참조 할 수 있도록 데이터베이스에 저장해야합니다. 이상적인 scraping 루틴은 반복적으로 실행되며 새 레코드 만 데이터베이스에 저장합니다. 각 웹 사이트에서 이전 기록을 쉽게 찾을 수있는 방법이 있어야합니다.많은 다른 웹 사이트에서 데이터를 스크랩하는 가장 좋은 방법
내 큰 질문은 무엇입니까?이를 수행하는 가장 좋은 방법은 무엇입니까? YQL을 사용한다고 들었습니다. 또한 일부 프로그래밍 언어로 인해 HTML 데이터를 쉽게 파싱 할 수 있다는 것도 알고 있습니다. 저는 여러 언어로 된 지식을 가진 개발자로서 이것을 개발하기 위해 적절한 언어와 방법을 선택하도록하고 싶습니다. 그래서 유지하기 쉽습니다. 앞으로 웹 사이트가 변경됨에 따라 스크래핑 루틴/코드/로직이 업데이트되어야하므로 상당히 쉽습니다.
제안 사항?