Googlebot이 어떤 프로그래밍 언어로 작성되었는지 알고있는 사람이 있습니까?어떤 프로그래밍 언어로 작성된 Googlebot 또는 기타 효율적인 웹 크롤러입니까?
더 일반적으로 어떤 언어로 효율적인 웹 크롤러를 작성합니까?
나는 자바 언어로 많은 것을 보아 왔지만, 너무 많은 오버 헤드를 만들어 내기 때문에 웹 크롤러를 개발하는 데 가장 적합한 언어가 아닌 것 같다. (Heritrix 웹 크롤러를 사용해 보았을 때 매우 무겁다.).
Googlebot이 어떤 프로그래밍 언어로 작성되었는지 알고있는 사람이 있습니까?어떤 프로그래밍 언어로 작성된 Googlebot 또는 기타 효율적인 웹 크롤러입니까?
더 일반적으로 어떤 언어로 효율적인 웹 크롤러를 작성합니까?
나는 자바 언어로 많은 것을 보아 왔지만, 너무 많은 오버 헤드를 만들어 내기 때문에 웹 크롤러를 개발하는 데 가장 적합한 언어가 아닌 것 같다. (Heritrix 웹 크롤러를 사용해 보았을 때 매우 무겁다.).
가장 빠른 버전 인 Backrub, was written in Python and Java.
GoogleBot (대개 C 또는 Python)에 대해 모르겠지만 자바와 .NET에서 좋은 것들이 많이 있습니다.
인기있는 오픈 소스 옵션 중 하나는 Nutch (종종 Lucene과 함께 사용됨)입니다.
Nutch 자체가 Java로 작성되어 있으며 매우 효율적입니다. Nutch.NET이라는 .NET 포트도 있습니다.
교양있는 추측은 파이썬입니다. 그들은 employ the creator of it입니다. 그러나 크롤러는 아마도 MapReduce을 사용하는 분산 응용 프로그램 일 것이라고 생각할 수 있습니다.이 경우 실제로는 C/C++ 응용 프로그램이 될 수 있습니다.
이것은 요점 외에도 있습니다. 여러 언어로 효율적인 웹 크롤러를 작성하고 동일한 결과를 얻을 수 있습니다. 망치는 노란색 또는 파란색 망치 일지라도 못을 박을 수 있습니다. 좋아하는 색을 선택하고 올바르게 사용하십시오.
언어가 특정 구현만큼 중요하지 않다고 생각합니다.
Java에서 어떤 종류의 오버 헤드가 걱정 되십니까? 메모리, 프로세싱 파워?
도움이 될 수 있습니다. 원래 Google 종이.
왜 신경 씁니까? – Raedwald