빠른 하둡 스트리밍 질문이 있습니다. 파이썬 스트리밍을 사용하고 있고 내 맵퍼/리듀서가 필요하지만 기본적으로 설치되지 않은 Python 패키지가 있다면 모든 Hadoop 시스템에도 설치해야합니다. 원격 기계?Hadoop Streaming으로 종속성 관리?
0
A
답변
2
작업 상자에 설치되어 있지 않으면 -file로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요하면 압축을 풀 수있는 zip 파일을 보낼 수 있습니다. 여기에 Haddop 0.17 호출 : 당신은 덤보를 사용하는 경우
1
당신이 계란 파일을 배포 -libegg 사용할 수 있으며 파이썬 자동 구성 : 그러나
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
은주의해야이 문제를보고 런타임 :
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
관련 문제
- 1. 메이븐의 종속성 버전 관리
- 2. GWT 및 종속성 관리
- 3. Java에서 배포 종속성 관리
- 4. JavaScript 종속성 관리
- 5. PowerShell을 종속성 관리
- 6. "모듈성 달성을위한 종속성 관리"
- 7. 내부 타사 종속성 관리
- 8. 외부 항아리 종속성 관리
- 9. MEF 종속성 및 버전 관리
- 10. C++ C# 프로젝트 종속성 관리
- 11. Play Framework 앱에서 종속성 관리
- 12. 비자 항 SVN 종속성 관리
- 13. 가상 배포 된 hadoop 모드에서 hdfs 관리
- 14. ASP.NET에서 CDN을 사용하여 JavaScript 종속성 관리
- 15. TeamCity : 수락 테스트의 배포 종속성 관리?
- 16. 설치 도중 관리 할 Doxygen 종속성
- 17. Maven 및 AppServer 종속성 관리 모범 사례
- 18. JavaScript 파일로드 순서 및 종속성 관리
- 19. Jojo in Hadoop? 그래픽을위한 Hadoop?
- 20. Hadoop (Fado) in Hadoop (Hadoop in Action exercise)
- 21. 스트리밍 데이터 및 Hadoop? (Hadoop Streaming이 아님)
- 22. hadoop NullPointerException
- 23. Java 및 Eclipse에서 라이브러리의 여러 버전에 대한 종속성 관리
- 24. RequireJS, LABjs (또는 유사)를 사용한 ExtJs 종속성 관리
- 25. 런타임에 클래스 패스에서 데이터를로드하는 Java 클래스의 데이터 종속성 관리
- 26. 작업 관리 응용 프로그램에 대한 작업 선행 작업/종속성 논리
- 27. Rails에서 사용할 수있는 자바 스크립트 종속성 관리 솔루션은 무엇입니까?
- 28. VS에서 프로젝트 참조가 아닌 dll 참조로 .NET 어셈블리 종속성 관리
- 29. EC2에서 Hadoop 클러스터의 온 디맨드 슬레이브 생성
- 30. Hadoop dfs -ls는 내 hadoop/dir에있는 파일 목록을 반환합니다.
티 질문은 각 노드에서 nltk를 가져 오는 방법을 보여줍니다. http://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775 – viper