2013-06-03 2 views
0

데이터 샘플 1000 개가 포함 된 샘플 데이터 세트가 주어지면 데이터를 전처리하여 10000 개의 데이터 행을 얻으므로 각 원래 데이터 행에서 10 개의 새 샘플이 생성됩니다 . 또한, 제 모델을 훈련 할 때 교차 검증을 수행 할 수 있기를 원합니다. 스코어링 기능은 원래 데이터를 사용하여 점수를 계산하므로 교차 검증 스코어링이 생성 된 것보다는 원본 데이터에서도 작동하도록하고 싶습니다. 생성 된 데이터를 트레이너에게 제공하기 때문에 (RandomForestClassifier를 사용하고 있습니다) 원본 샘플에 따라 데이터를 올바르게 분할하기 위해 교차 유효성 검사에 의존 할 수 없습니다. Sklearn을 사용한 교차 유효성 검사를위한 고급 피쳐 추출

나는 일을 생각하는 것 :

  • 이 분류에 공급하는 기능을 추출하는 사용자 정의 기능 추출기를 만듭니다.
  • 파이프 라인에 피쳐 추출기를 추가하고 GridSearchCv (예 :
  • )에 피드하면 원래 데이터에서 작동하는 사용자 정의 스코어러가 구현되어 선택된 매개 변수 집합에 모델을 채점합니다.

달성하려는 목표에 대해 더 나은 방법이 있습니까?

나는 어쩌면 당신은 확장 된 샘플에 (예를 들어 층화 K 폴드 또는 층화 무작위 분할) 층화 교차 유효성 검사를 사용하여 원래의 샘플을 사용할 수 있습니다 Kaggle

답변

0

에 지금 경쟁이 벌어 연결이 요청하고 idx를 계층화 정보로 사용하여 모델 평가에서 원본이 아닌 샘플을 무시하는 사용자 정의 점수 함수와 함께 사용합니다.

+0

시도해 보겠습니다. 답변 주셔서 감사합니다 Olivier! – ak3nat0n

+0

필자의 채점 기능은 각 샘플 (그리고 그 샘플에 속하는 모든 생성 된 샘플)을 채점해야하기 때문에 생성 된 샘플에서 StratifiedKfold를 사용하는 것이 좋지 않을 것입니다. 결과적인 폴드가 샘플의 다른 비트로 이루어지기 때문에 모두 함께? – ak3nat0n

관련 문제