스트리밍 작업의 경우 출력 디렉토리를 지정해야합니다. mapper의 결과를 HDFS 디렉토리가 아닌 stdout에 출력하고 싶다면 어떻게해야할까요? 이것이 가능한가? 다른 프로그램을 파이프 할 수 있도록이 작업을 수행하려고합니다.Hadoop 스트리밍 작업의 출력을 STDOUT으로 보내기
1
A
답변
0
나는 hadoop 내에 많은 스트리밍 작업을 작성했습니다. 사용자 정의 파이프 라인이 여기에서 무엇을 기대하는지는 명확하지 않습니다. 출력에 가고이 경우
hadoop jar hadoop-*streaming*.jar
-file mapper.py -mapper mapper.py \
-input /user/myuser/input/* -output /user/myuser/output
:
당신이 (예를 들어, 쉘 스크립트 .sh가하는 평에서 변경) 파이썬에서 매퍼/감속기를 썼다 가정, 우리가 자세히 살펴 보자 hdfs - 당신이 말한대로 은이 아닙니다.
대신 출력을 stdout으로 보낸 경우 문제는 다음과 같습니다. 출력이 여러 매퍼로 생성되는 것을 어떻게 처리합니까?
여기에 아이디어가 있습니다. 왜 "흐름과 함께"가 아니라고 생각하십니까? 결과물을 hdfs로 보내주십시오. TotalOrderPartitioner 감속기를 추가하여 모든 출력 파일을 결합하십시오. 그렇다면 출력 결과에 대해 hdfs -cat을 실행합니다.
관련 문제
- 1. hadoop 작업의 출력을 다른 입력으로 사용합니다.
- 2. EMR 스트리밍 작업의 출력을 HDFS에 쓰려면 어떻게해야합니까?
- 3. C에서 stdout으로 파일 보내기
- 4. 자식 stdout을 부모 stdout으로 보내기
- 5. Hadoop 작업의 로그인은 어떻게 작동합니까?
- 6. Hadoop 스트리밍 작업의 출력 파일 이름과 내용을 어떻게 제어합니까?
- 7. hadoop 파이썬 모듈로 스트리밍
- 8. Hadoop C를 사용하여 스트리밍
- 9. Hadoop 스트리밍 정렬 오류
- 10. Twitter - Hadoop 데이터 스트리밍
- 11. Hadoop 스트리밍 작업 실패
- 12. hadoop 스트리밍 작업이보고되지 않습니까?
- 13. Windows에서 python으로 Hadoop 스트리밍
- 14. 한 작업의 출력을 다른 작업의 입력으로 사용
- 15. MapReduce Hadoop 작업의 전체 진행
- 16. hadoop 작업의 실제 처리 시간
- 17. 스트리밍 데이터 및 Hadoop? (Hadoop Streaming이 아님)
- 18. syslog 출력을 stdout으로 보내는 방법은 무엇입니까?
- 19. 호출 코드가없는 함수에서 출력을 stdout으로 출력
- 20. 크론 작업의 모든 출력을 폐기
- 21. Zip 입력 파일로 Hadoop 스트리밍
- 22. Hadoop 스트리밍 파일을 디렉토리에 액세스
- 23. hadoop 스트리밍 get node id
- 24. Hadoop 스트리밍 최대 라인 길이
- 25. hadoop 스트리밍 오류, 파이썬으로 mapreduce
- 26. Hadoop 0.2 : TextOutputFormat의 출력을 읽는 방법?
- 27. Hadoop 작업의 CPU 시간은 무엇을 의미합니까?
- 28. 개별 hadoop 작업의 카운터 및 메트릭 수집
- 29. Hadoop 완료 및 퇴직 한 작업의 차이점
- 30. hadoop 작업의 감속기에서 dynamodb 테이블로 데이터를로드하는 방법
나는 작은 사람의 출력으로 집계 작업을 실행하기 때문에 질문자를 대변 할 수는 없지만 hdfs 대신 stdout을 사용하고 싶다. 오버 헤드와 막대한 양의 낭비로 보인다. -size) ~ 128 바이트를 HDFS에 넣습니다. – Noah