취미 프로젝트로 작은 크롤러를 만들고 있습니다. 내가하고 싶은 것은 백만 페이지를 기어 다니고 데이터베이스에 저장하는 것뿐입니다. (예, 업데이트 될 수 있지만 특정 시간의 항목은 1 백만 개입니다.) 이러한 것들이 어떻게 작동하는지 알기 만하면됩니다.크롤러가이 서버 구성에서 작동합니까?
PHP/MySQL로 코딩하고 싶습니다. I 은 검색 기능을 제공하지 않으므로 검색 기능을 원하지 않습니다. 필자가 원하는 것은 데이터베이스에서 직접 SQL 쿼리를 거의 실행할 수 없어야한다는 것입니다.
데이터베이스에서 나는 별도의 txt 파일에 저장하고자하는 페이지 텍스트를 저장하지 않을 것입니다 (실행 가능할 지 모르겠습니다). 제목, 링크 및 기타 정보 만 저장됩니다. 기본적으로 쿼리를 실행하면 결과가 나옵니다. 이러한 파일에서 텍스트 데이터를 가져올 수 있습니다.
이 디자인이 다음 환경에서 가능할 지 알고 싶습니다.
Linode (512MB RAM)에서 VPS를 구입할 예정입니다. 전용 서버로 갈 수 없으며 공유 호스트가이 작업을 허용하지 않을 것입니다.
내 질문 : 필요할 때 배치 모드로 쿼리를 실행할 수있는이 큰 데이터베이스 (1 백만 행)를 유지할 수 있습니까?
모든 종류의 제안을 환영합니다. 다른 호스팅 옵션도 환영합니다.
아마도 도움이 될 것입니다. http://www.sphider.eu/ –
백만 페이지가 소요됩니다. 귀하의 ISP가 괜찮기를 바랍니다. –
@experimentX 데이터베이스를 크롤링하고 확장 성 문제가 거의 발생하지 않도록 맞춤 설정하고 싶습니다. 귀하의 링크 주셔서 감사합니다 :) – Ankit