저는 Hadoop 스트리밍을 사용하여 Python 기반 HTML 그래버를 작성하고 있습니다. 단일 스레드 파이썬 스크립트를 실행하는 것이 느리다는 것을 알게되었습니다. 다중 스레드 버전으로 수정하고 싶습니다. 누구든지 mapper의 스레드 수를 설정할 수있는 좋은 번호를 알고 있습니까? 나는 클러스터의 각 노드의 스펙을 잘 모르고 있지만 적어도 두 개의 스레드를 지원한다고 가정한다.Hadoop Streaming 스레딩
0
A
답변
0
파이썬으로 스레딩을 시도했지만 글로벌 인터프리터 잠금에 문제가있었습니다. 멀티 프로세싱 모듈을 사용하기 위해 이식 된 코드는 내부적으로 hadoop이 클러스터에 코어가있는만큼 많은 매퍼를 할당하므로 속도를 높여야하는 경우 멀티 프로세싱은 갈 방법이 아닙니다. 다중 스레드가 올바르게 수행 되었다면 약간의 속도 향상을 얻을 수 있습니다.
0
html 그래버에는 hadoop 스트리밍을 사용하지 않았지만 여기 urllib2가 여러 스레드 (다중 처리 패키지가 아닌 단순한 다중 스레드)를 사용하는 방식에 대해 이야기하는 post이 있습니다.
희망이 도움이 될 수 있습니다.
관련 문제
- 1. Hadoop streaming :보고 오류
- 2. Hadoop streaming KeyFieldBasedPartitioner
- 3. Hadoop Streaming Never Finishes
- 4. Hadoop Streaming 용 Hadoop Job 객체 빌드하기
- 5. Hadoop Streaming - Perl 모듈 종속성
- 6. Hadoop streaming failed in R
- 7. 파이썬에서 Hadoop Streaming Job 오류가 발생했습니다.
- 8. Hadoop Streaming Command Failed Job이 실패했습니다.
- 9. 가장 작은 숫자를 찾는다. hadoop streaming python
- 10. Hadoop Streaming Python을 사용한 SequenceFile 형식
- 11. hadoop streaming mapreduce에서 결합기 사용 (mrjob 사용)
- 12. Hadoop Streaming mangles Python에서 제작 한 Avro
- 13. Hadoop Streaming with Python에서 파일 사용
- 14. Hadoop Streaming 작업에서 Priority \ Pool을 어떻게 설정합니까?
- 15. Rails Streaming not Streaming
- 16. Hadoop Streaming -file 플래그를 Amazon ElasticMapreduce에 전달하려면 어떻게해야합니까?
- 17. hadoop-streaming : 작업이 완료되면 사후 처리 자동화 하시겠습니까?
- 18. Azure HDInsight에서 Hadoop Streaming API로 파이썬 코드를 실행할 수 있습니까?
- 19. 컨테이너가 실제 메모리를 넘어서 실행 중입니다. Hadoop Streaming python MR
- 20. Hadoop Streaming Python 다중 입력 파일 단일 매퍼
- 21. Hadoop Custom Jars, Hadoop Streaming, Pig 또는 Mahout 중 선택할 수있는 것은 무엇입니까?
- 22. Hadoop EMR with Python
- 23. Hadoop 스트리밍 정렬 오류
- 24. Hadoop C를 사용하여 스트리밍
- 25. 여러 Smooth Streaming 미디어 요소 용 Smooth Streaming Player
- 26. inluxis flv streaming (플래시)
- 27. Spark Streaming textFileStream 복사
- 28. Flickr streaming python getcomment()
- 29. Spark Streaming Kafka Consumer
- 30. Nodejs mp3 streaming
스레딩은 분명히 Hadoop 스트리밍과 작동하지만 매퍼마다 스핀 할 수있는 스레드 수는 여전히 알 수 없습니다. – viper