0

현재 로컬로 실행되는 R 코드가 있습니다. 그것은 % dopar % 함수를 사용하여 성공적으로 병렬 처리 한 foreach 섹션으로 구성됩니다. 이 루프를 단일 CPU의 병렬화에서 Hadoop 서버의 배포로 변환하고 싶습니다.Hadoop 서버에서 R 처리 배포

누구나 적절한 접근 방법과 사용해야하는 패키지에 대해 조언 해 줄 수 있습니까?

추가 정보 : My Hadoop 설정은 Hortonworks HDP이며 내 foreach 루프는 당황스럽게 병렬입니다. 속도 향상을 위해 로컬 병렬 처리에서 클러스터 배포로 점프하려고합니다. 컴퓨팅/처리 만이 클러스터에서 수행되어야합니다 (내 데이터는 로컬 - 클러스터가 아님).

답변

0

Hadoop을 사용하도록 설계된 foreach 백엔드가 없습니다. doSNOW, doParalleldoMPI을 사용하여 클러스터의 여러 노드에서 foreach를 실행할 수 있지만 원격 노드에서 worker를 시작하려면 ssh 또는 MPI/mpirun이 필요합니다. Hadoop과 얼마나 잘 작동하는지 확신 할 수 없습니다.

Hadoop (RHIPE, RHadoop)과 함께 작동하는 수많은 R 패키지가 있지만이를 사용하기 위해 R 코드를 변환하는 데 필요한 작업량을 알지 못합니다.