에서 XGBoost4J 새로운 DMatrix에 내가는 스파크
org.apache.spark.rdd.RDD[ml.dmlc.xgboost4j.LabeledPoint]
데이터를 교육 DMatrix 필요 XGBoost.train 기능과 같은 ml.dmlc.xgboost4j.LabeledPoint 인 A 원소 RDD을, 얼마나, 나는 체크 아웃 xgboost 소스 코드와 DMatrix에 대한 생성자 함수를 찾고, DMatrix (Iterator iter, String cacheInfo)를 좋아합니다. DMatrix API
그러나 DMatrix 용 Iterator를 구성 할 생각이 없습니다.
모든 솔루션?
이외 : spark1.5에서 xgboost4j -v0.5 만 사용할 수 있으므로 새 버전의 일부 기능을 사용할 수 없습니다.
당신이 xgboost의 GitHub의에 사용 예를 찾을 수 있습니다
새로운 DMatrix은 제안되지 않는다 매회 spark-sql 사용 – user3151261