나는 hadoop으로 놀기 시작했다. (그러나 클러스터에 액세스 할 수는 없으므로 독립 실행 형으로 놀고있다.) 내 질문은 일단 클러스터 설정에서 어떻게 작업을 배포하고 코드베이스를 새 노드로 전송할 수 있습니까?Hadoop은 작업과 코드베이스를 배포 할 수 있습니까?
이상적으로는 대규모 일괄 처리 작업을 실행하고 클러스터에 새 노드를 추가해야하지만 같은 코드를 복사해야 할 지 모르겠다. 배치 작업이 실행되는 동안 용량을 추가 할 수 있습니다. HDFS에 코드베이스를 저장하고 필요할 때마다 실행되도록 로컬로 가져 왔지만 서버에 초기 스크립트가 필요하다는 것을 의미하므로 수동으로 먼저 실행해야합니다.
가능하다면 어떤 제안이나 조언을 부탁드립니다.
감사합니다.
고맙습니다. 훌륭한 답변입니다. 그것은 자바와 의미가 있지만이 또한 파이썬 스트리밍을 사용하여 사실입니까? – Lostsoul
http://hadoop.apache.org/common/docs/r0.15.2/streaming.html#Package+Files+With+Job+Submissions : "실행 파일을 매퍼 및/또는 감속기로 지정할 수 있습니다. 실행 파일은 클러스터의 컴퓨터에 미리 존재할 필요는 없지만 그렇지 않은 경우 "-file"옵션을 사용하여 실행 파일을 작업 제출의 일부로 묶도록 프레임 워크에 지시해야합니다. " tasktrackers 추가에 관한 위의 모든 내용은 스트리밍에도 적용됩니다. –