현재 엄청난 양의 데이터 (수백 개의 기가)를 크롤링하고 처리하고 구조화 된 데이터 추출, 엔티티 인식, 중복 제거, 분류 등의 작업을 수행하는 프로젝트에 착수했습니다.대규모 기계 학습 - Python 또는 Java?
Lingpipe, Mahout, NLTK 등 Java와 Python 세계의 ML 도구에 익숙합니다. 그러나 이러한 대규모 문제에 대한 플랫폼을 선택하는 경우 Java 또는 Python을 결정할 충분한 경험이 없습니다.
나는 막연한 질문처럼 들리지만 나는 자바 나 파이썬 중 하나를 고르는 것에 대한 일반적인 조언을 찾고있다. JVM은 파이썬보다 더 나은 성능 (?)을 제공하지만 Lingpipe 등의 라이브러리는 파이썬 생태계와 일치합니까? 이 Python을 사용하면 얼마나 쉽게 확장하고 여러 대의 컴퓨터에서 관리 할 수 있을까요?
내가 가지고 있어야하는 이유는 무엇입니까?
[자이 썬] (http://www.jython.org/) :-) –
사용 된 알고리즘은 대규모 ML 작업에서 언어와 마찬가지로 중요합니다. 예를 들어, 고유 벡터 기반의 기법은 많은 양의 데이터를 다룰 때 실현 불가능할 수 있습니다. 따라서 대규모 문제에 대한 각 언어의 사용 가능한 도구에 대해 생각해 볼 가치가 있지만 사용되는 ML 알고리즘이 성능을 좌우할 수 있습니다. – Junier
귀하의 질문은 매우 흥미 롭습니다. 그러나 또한 매우 광범위합니다. 나는 대답에 무엇을 넣을 지조차 모릅니다. 조언은 Hadoop의 프로젝트 인 Mahout을 사용하여 직접 문제를 해결하는 것입니다. 귀하의 질문을보다 명확하고 상세하게 작성하십시오. 잠재적 가능성이 있다고하더라도 아마 닫힐 것입니다. –