2011-10-06 10 views
2

최근 자연 언어 처리 작업을 수행하고 내 문제를 해결하는 데 매우 효과적이었던 python 스크립트를 만들었습니다. 그러나 그것은 9 시간이 걸렸다. 먼저 hadoop을 사용하여 문제를 단계별로 분석하고 Amazon Web Services를 사용하여 확장 가능한 병렬 처리를 활용하는 방법을 연구했습니다.Python의 병렬 처리 옵션

그러나 내 친구는 Hadoop이 실제로 많은 양의 간단한 작업을 수행하려는 디스크에 많은 양의 데이터 저장소를 제공한다는 사실을 지적했습니다. 제 상황에서는 많은 복잡한 작업을 수행하고 프로세스 중에 많은 메모리를 차지하며 많은 시간이 걸리는 비교적 작은 초기 데이터 세트 (Mbs의 낮은 100s)가 있습니다.

스크립트에서 AWS (또는 유사한 서비스)의 확장 가능한 클러스터를 활용하기 위해 어떤 프레임 워크를 사용할 수 있습니까?

답변

0

Parallel Python은 클러스터의 여러 컴퓨터에 걸쳐 작업을 분산시키는 옵션 중 하나입니다.

0

This example은 단일 컴퓨터에서 프로세스를 사용하여 MapReduce와 유사한 스크립트를 수행하는 방법을 보여줍니다. 둘째, 가능한 경우 중간 결과 캐싱을 시도하십시오. 나는 NLP 작업을 위해 이렇게했고 상당한 속도를 얻었다.

0

내 패키지 jug이 귀하의 요구에 매우 적절할 수 있습니다. 더 많은 정보가 없으면, 코드가 어떻게 생겼는지 말할 수는 없지만, 서브 - 하프 크기의 문제를 위해 디자인했습니다.

+0

나는 그것을 빨리 읽어 주었다. 셀러리처럼 더 가깝거나 하둡과 더 비슷한가? 용기가 해결하지 못하는 문제는 무엇입니까? – Trindaz

+0

셀러리와 비슷하지만 맛이 다릅니다. Hadoop보다 오버 헤드가 적습니다 (그러나 확장 할 수는 없습니다). – luispedro