2014-02-19 3 views

답변

1

아는 바를 사용하십시오. 크롤링/스크래핑에 대한 현재 사용중인 기본 언어의 라이브러리를 찾은 다음 병목 현상이 발생하면 새로운 언어로만 최적화하십시오.

당신이 파이썬을 사용한다면, stdlib는 기본적인 것들을 충분히 html 텍스트 추출하고, 더 복잡한 것이 필요하다면, beautifulsoup를 시도해보십시오 (참고 : bs4를 사용하면 bs3보다 낫습니다).

이상적으로 백그라운드에서 스크래핑/크롤링을하고 로컬 데이터베이스에 캐시를 작성해야합니다. MariaSql, Postgres, Sqlite (최대 100 만 페이지 정도) 또는 NoSQL 솔루션 중 하나라고 말하십시오.

이렇게하고 저장하는 형식이 적당하면 표준 코드 나 나중에 사용하는 언어를 쉽게 바꿀 수 있습니다.

그런 다음 앞면 웹 코드를 PHP, Python 등 무엇이든 원하는대로두고 새롭고 효율적인 백엔드 크롤러로 교체 할 수 있습니다. 필요한 경우.

관련 문제