2013-08-06 4 views
0

저는 Hadoop 스트리밍을 사용하여 Python 기반 HTML 그래버를 작성하고 있습니다. 단일 스레드 파이썬 스크립트를 실행하는 것이 느리다는 것을 알게되었습니다. 다중 스레드 버전으로 수정하고 싶습니다. 누구든지 mapper의 스레드 수를 설정할 수있는 좋은 번호를 알고 있습니까? 나는 클러스터의 각 노드의 스펙을 잘 모르고 있지만 적어도 두 개의 스레드를 지원한다고 가정한다.Hadoop Streaming 스레딩

+0

스레딩은 분명히 Hadoop 스트리밍과 작동하지만 매퍼마다 스핀 할 수있는 스레드 수는 여전히 알 수 없습니다. – viper

답변

0

파이썬으로 스레딩을 시도했지만 글로벌 인터프리터 잠금에 문제가있었습니다. 멀티 프로세싱 모듈을 사용하기 위해 이식 된 코드는 내부적으로 hadoop이 클러스터에 코어가있는만큼 많은 매퍼를 할당하므로 속도를 높여야하는 경우 멀티 프로세싱은 갈 방법이 아닙니다. 다중 스레드가 올바르게 수행 되었다면 약간의 속도 향상을 얻을 수 있습니다.

0

html 그래버에는 hadoop 스트리밍을 사용하지 않았지만 여기 urllib2가 여러 스레드 (다중 처리 패키지가 아닌 단순한 다중 스레드)를 사용하는 방식에 대해 이야기하는 post이 있습니다.

희망이 도움이 될 수 있습니다.

관련 문제