나는 카테고리에 대한 링크를 추천하는 새로운 웹 사이트를 만드는 중입니다. 다른 웹 페이지를 빠르게 스캔해야합니다. 효과적인 웹 크롤러를 만들기 위해 어떤 언어를 사용해야합니까?매우 효율적인 웹 크롤러를 만드는 가장 효율적인 언어는 무엇입니까?
0
A
답변
1
아는 바를 사용하십시오. 크롤링/스크래핑에 대한 현재 사용중인 기본 언어의 라이브러리를 찾은 다음 병목 현상이 발생하면 새로운 언어로만 최적화하십시오.
당신이 파이썬을 사용한다면, stdlib는 기본적인 것들을 충분히 html 텍스트 추출하고, 더 복잡한 것이 필요하다면, beautifulsoup를 시도해보십시오 (참고 : bs4를 사용하면 bs3보다 낫습니다).
이상적으로 백그라운드에서 스크래핑/크롤링을하고 로컬 데이터베이스에 캐시를 작성해야합니다. MariaSql, Postgres, Sqlite (최대 100 만 페이지 정도) 또는 NoSQL 솔루션 중 하나라고 말하십시오.
이렇게하고 저장하는 형식이 적당하면 표준 코드 나 나중에 사용하는 언어를 쉽게 바꿀 수 있습니다.
그런 다음 앞면 웹 코드를 PHP, Python 등 무엇이든 원하는대로두고 새롭고 효율적인 백엔드 크롤러로 교체 할 수 있습니다. 필요한 경우.
관련 문제
- 1. 웹 크롤러를 감지하는 가장 효율적이고 효율적인 방법
- 2. 웹 화상 채팅을 만드는 가장 효율적인 방법은 무엇입니까?
- 3. 웹 크롤러의 URI를 저장하는 가장 효율적인 효율적인 데이터 구조
- 4. 개체 모음을 만드는 가장 효율적인 방법은 무엇입니까?
- 5. couchdb보기를 만드는 가장 효율적인 방법
- 6. android.net.wifi.ScanResult를 Comparable로 만드는 가장 효율적인 방법은 무엇입니까?
- 7. jQuery 링크를 만드는 가장 효율적인 방법은 무엇입니까?
- 8. 가장 효율적인 쿼리는 무엇입니까?
- 9. jQuery에서 가장 효율적인 버튼을 선택하는 가장 효율적인 방법은 무엇입니까?
- 10. SDL2에서 TextureManager를 만드는 가장 효율적인 방법
- 11. 가장 효율적인 방법은 PHP
- 12. 가장 효율적인 jQuery 선택기
- 13. 가장 효율적인 스레드 수는 무엇입니까?
- 14. 가장 효율적인 antichess 알고리즘은 무엇입니까?
- 15. 가장 효율적인 방법은 PyQt4
- 16. 가장 효율적인 그렙 방법
- 17. 매우 적은 양의 데이터를 기록하는 가장 효율적인 방법은 무엇입니까?
- 18. 매우 큰 정수를 뒤집을 수있는 가장 효율적인 알고리즘/코드는 무엇입니까?
- 19. IEnumerable에서 가장 효율적인 방법
- 20. 가장 효율적인 스크롤 텍스트
- 21. 가장 효율적인 방법
- 22. URLByAppendingPathComponent의 가장 효율적인 사용
- 23. 장고는 가장 효율적인 방법입니까?
- 24. 웹 사이트에서 콘텐츠를 예약하는 가장 효율적인 방법
- 25. ASPX 웹 요청을 종료하는 가장 효율적인 방법
- 26. 가장 효율적인 MySQL 쿼리를 만드는 방법
- 27. 사전의 그래프를 만드는 효율적인 방법
- 28. 사진을 디스크에 저장하는 가장 효율적인 효율적인 방법은 무엇입니까?
- 29. 매우 큰 목록의 웹 프로그래밍 언어는 무엇입니까?
- 30. 효율적인 방법을위한 웹 크롤러 작성을위한 권장 사항
어떤 의미에서 효율적입니까? 귀하 또는 컴퓨터를 위해? – thkala