매우 일반적인 사용 사례이지만 Hadoop에서 수행하기가 어렵습니다 (WholeFileRecordReader 클래스에서 가능). Dumbo 나 Pig에서 가능한가요? 누구나 Dumbo 나 Pig를 사용하여 전체 파일을지도 작업으로 처리하는 방법을 알고 있습니까?Python 코드를 사용하여 Hadoop의 전체 파일을 처리합니다 (보통 Dumbo에서)
2
A
답변
0
WholeFileRecordReader는 입력 파일을 분할하지 않는다는 것을 의미합니까? 그렇다면 mapred.min.split.size를 매우 큰 값으로 정의하십시오. mapreduce와 Pig가 모두 사용합니다.
+0
감사합니다. 그것은 매우 간단하지만 어떤 노드에서 설정해야합니까? (원격 Hadoop 클러스터를 사용하고 있습니까?) – jan
0
나는 당신이 돼지에 기록으로 하나의 파일을 갖고 싶어한다고 가정하고 있습니다. 그렇지 않은 경우 귀하의 질문에 구체적으로 기재하십시오.
전체 파일을 한 번에 (표준 배포 또는 piggybank에서)로드하는 Pig 저장소 로더에 대해 잘 모릅니다. 나는 당신이 자신의 Pig custom loader을 쓰기를 제안한다. 그것은 비교적 쉽다.
관련 문제
- 1. Codeblocks가 전체 블록을 주석 처리합니다.
- 2. 별도의 .js 파일을 사용하여 Jquery를 처리합니다.
- 3. Hadoop의 시퀀스 파일
- 4. 웹상에서 원격으로 저장된 파일을 처리합니다.
- 5. 통계 파일을 생성하기 위해 많은 파일을 처리합니다.
- 6. C# Regex에서 C++ 코드를 이스케이프 처리합니다.
- 7. 디렉토리의 모든 파일을 일괄 처리합니다.
- 8. 파일을 한 번만 루아에서 처리합니다.
- 9. hadoop의 전역 변수
- 10. Hadoop의 동적 노드
- 11. MALICIOUS_CODE EI_EXPOSE_REP 보통
- 12. 텍스트 파일의 텍스트 파일을 Hadoop의 단일 레코드로 처리하기
- 13. 전체 .NET을 사용하는 Python?
- 14. hg repo에서 OS 특정 .classpath 파일을 처리합니다.
- 15. .txt 파일을 Hadoop의 시퀀스 파일 형식으로 변환하는 방법
- 16. Entity Framework - 보통 트러스트
- 17. python 코드를 다시 구성
- 18. 대용량 소프트웨어의 소스 코드를 읽는 데 보통 어떻게 메모합니까?
- 19. 코드를 컴파일 할 때까지 기다리는 동안 보통 무엇을합니까
- 20. 반복을 필요로하는 hadoop의 좋은 예
- 21. 파일 확장자를 Android 앱에 연결하고 파일을 처리합니다.
- 22. 레일 어플리케이션의 루트가 잘못된 파일을 처리합니다.
- 23. Hadoop의 스트리밍 또는 사용자 정의 Jar
- 24. Python : os.system()을 사용하여 파일을 열지 못했습니다.
- 25. 동기화 속도 대 보통
- 26. 보통 지연된 작업
- 27. UIWebView가 화면 회전시에 처리합니다.
- 28. 변경된 python 파일을 emacs에서 다시로드 python 쉘
- 29. 자바 코드를 사용하여 URL을 전달하여 파일을 다운로드하십시오.
- 30. 이 코드를 사용하여 파일을 이동하는 방법
답변 해 주셔서 감사합니다. Hadoop에서 파일 분할에 대해 읽었을 때 표준 분할 크기는 64MB입니다. 내 파일은 작고 (수백 KB) HAR에 압축되어 있습니다. 지도가 분할되지 않고 실제로지도 작업 당 하나씩 처리된다는 의미입니까? 또는지도 작업 당 여러 개 (HAR 때문에)? – jan
아니요, har가지도의 수를 줄이지는 않습니다. MultiFileInputSplit을 사용해야합니다. Pig를 사용하는 경우 Pig는 0.8 (http://pig.apache.org/docs/r0.9.0/perf.html#combine-files)부터 시작하는 작은 파일을 자동으로 결합합니다. –