최근 자연 언어 처리 작업을 수행하고 내 문제를 해결하는 데 매우 효과적이었던 python 스크립트를 만들었습니다. 그러나 그것은 9 시간이 걸렸다. 먼저 hadoop을 사용하여 문제를 단계별로 분석하고 Amazon Web Services를 사용하여 확장 가능한 병렬 처리를 활용하는 방법을 연구했습니다.Python의 병렬 처리 옵션
그러나 내 친구는 Hadoop이 실제로 많은 양의 간단한 작업을 수행하려는 디스크에 많은 양의 데이터 저장소를 제공한다는 사실을 지적했습니다. 제 상황에서는 많은 복잡한 작업을 수행하고 프로세스 중에 많은 메모리를 차지하며 많은 시간이 걸리는 비교적 작은 초기 데이터 세트 (Mbs의 낮은 100s)가 있습니다.
스크립트에서 AWS (또는 유사한 서비스)의 확장 가능한 클러스터를 활용하기 위해 어떤 프레임 워크를 사용할 수 있습니까?
나는 그것을 빨리 읽어 주었다. 셀러리처럼 더 가깝거나 하둡과 더 비슷한가? 용기가 해결하지 못하는 문제는 무엇입니까? – Trindaz
셀러리와 비슷하지만 맛이 다릅니다. Hadoop보다 오버 헤드가 적습니다 (그러나 확장 할 수는 없습니다). – luispedro