pyspark에서 미리 훈련 된 xgboost 분류기를 사용하고 싶지만 클러스터의 노드에는 xgboost 모듈이 설치되어 있지 않습니다. 내가 훈련하고 브로드 캐스팅 한 분류자를 피클링 할 수는 있지만 각 클러스터 노드에 모듈을로드해야하므로 충분하지 않습니다.spark에서 사용하기 위해 xgboost 모듈을 배포하는 방법은 무엇입니까?
루트가없고 공유 파일 시스템이 없으므로 클러스터 노드에 설치할 수 없습니다.
어떻게 spark에서 사용할 xgboost 분류자를 배포 할 수 있습니까?
나는 xgboost에 대한 계란을 가지고있다. http://apache-spark-user-list.1001560.n3.nabble.com/Loading-Python-libraries-into-Spark-td7059.html 또는 https://stackoverflow.com/a/24686708/2179021과 같은 것을 사용할 수 있습니까?
개별 시스템에 대한 SSH 액세스 권한이 있습니까? 어느 클러스터 관리자를 사용합니까? – zero323
@ zero323 우리는 YARN을 사용하지만 슬프게도 기계에 대한 ssh 액세스가 없습니다. 내가해야 할 일은 '계란'방송과 관련된 해결책을 찾는 것입니다. – eleanora
정직한 조언은 책임감있는 사람을 찾아 강제로 찾아서 필요한 라이브러리를 제공하거나 구성 가능한 환경 (예 : Anaconda 설치)을 제공하는 것입니다. 네이티브 의존성을 올바르게 구축하고 구성하는 것이 편안함뿐 아니라 기본 성능에 관한 것입니다. 차이점은 상당히 중요 할 수 있습니다. – zero323