특정 한 가지 검색 서비스를 만들고 싶습니다. 무료 기밀 서비스 및 기타 여러 사이트를 통해 데이터를 무료로 이용할 수 있습니다.다른 사이트를 긁어 낼 검색 엔진을위한 빌딩 블록이 있습니까?
빌딩 블록이 있습니까? 사용자 정의 할 오픈 소스 크롤러 - 처음부터 빌드하지 않고 사용할 수 있습니까?
이러한 제품을 만드는 방법에 대한 조언이 있으십니까? 기술적 인 것뿐만 아니라 고려해야 할 프라이버시/법적 사항.
예. 검색 결과가있는 곳에서 '신용을 제공'하고 원본에 대한 링크를 붙여야합니까 - 여러 곳에서 가져올 수 있습니까?
편집 : 그런데 프론트 엔드 용 JS와 함께 GWT를 사용 중이며 백엔드 용 언어를 결정하지 않았습니다. PHP 또는 Python. 생각?
그래서 나는 '스크린 스크레이퍼'를 만들고 HTML 코드를 파싱하고 유용한 정보를 꺼낸 다음 그 정보를 db로 덤핑 할 것이라고 생각합니다. 그게 일반적인 과정인가요? – marcamillion
제게는 충분히 일반적인 것입니다 ... 제가보기에 유일한 제한은 웹 브라우저를 완전히 시뮬레이트하는 자바 스크립트 나 플래시 엔진이 없다는 것입니다. 당신은 스파이더 맨 키 바인딩을 가진 js를 추가 할 수 있습니다. – liori