최신 2.0.1 릴리스에서 apache-spark에 대한 sklearn의 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html과 비슷한 것이 있는지 궁금합니다.스파크 트레인 테스트 스플릿
지금까지 나는 무겁게 불균형 한 데이터 세트를 기차/테스트 샘플로 나누는 데별로 적합하지 않은 것 같아 https://spark.apache.org/docs/latest/mllib-statistics.html#stratified-sampling만을 찾을 수있었습니다.
참조 [예 : 기차 검증 분할을 통해 모델 선택] (https : //로 스파크 .apache.org/docs/latest/ml-tuning.html # train-validation-split) ** TrainValidati onSplit **은 하나의 (훈련, 테스트) 데이터 세트 쌍을 만듭니다. trainRatio 매개 변수를 사용하여 데이터 세트를이 두 부분으로 나눕니다. –
감사. 나는 그것에 대해 몰랐다. 그러나 TrainValidationSplit은 임의 화되거나 시작된 분할을 지원하지 않습니다. 내가 여기서 뭔가를 놓치고 있니? –
맞아,이 [기차/교차 유효성 검사 세트를 분할 할 때 균형 클래스 레이블 지원]에 대한 Jira 티켓이 있습니다 (https://issues.apache.org/jira/browse/SPARK-8971). 따라서 Mllib은 아직이 기능을 지원하지 않습니다. –