R에서 Boruta 패키지를 사용하여 기능 선택을 시도하고 있습니다. 문제는 내 기능 집합이 길기 때문에 (70518 기능) 데이터 프레임이 너무 커서 (2Gb) 한 번에 Boruta 패키지로 처리 할 수 없습니다. 데이터 프레임을 여러 세트로 나눌 수 있는지 궁금합니다. 모든 기능이없는 경우 알고리즘이 가중치를 정확하게 식별 할 수 있는지 확실하지 않
유전자 알고리즘을 사용하여 캐럿 기능 선택을 사용하려고하는데 오류 메시지가 나타납니다. 내 코드는 아래와 같습니다. set.seed(10)
trainIndex <- createDataPartition(iris$Species, p = .5, list = FALSE, times = 1)
trainData <- iris[trainIndex,-c(1,2)]
UCI 성인 데이터 세트에서 일부 기능 선택 알고리즘을 수행하려고하는데 Univaraite 기능 선택에 문제가 있습니다. 모든 카테고리 데이터에서 숫자로 변경하기 위해 onehot 인코딩을하고 있지만 f 점수가 많습니다. 어떻게 이것을 피할 수 있습니까? 이 코드를 개선하려면 어떻게해야합니까? # Encode
adult['Gender'] = adult['
내 문제는 하나의 샘플 .wav 파일에서 다른 프레임의 모든 피쳐를 의미합니다. 최신 OpenEar 프레임 워크에 속한 "chroma_fft.conf"파일에 cFunctionals를 시도하고 있습니다. 가장 좋은 설명을 위해 필자는 "chroma_fft.conf"에 쓴 필수 코드를 작성했으며 아래에 나와 있습니다. [componentInstances:cCo
나는 SelectKBest를 사용 최고 K 기능를 선택하고 GaussianNB를 실행합니다. 정확도되었습니다 동일한 데이터 용 0.61063743402354853
0.60678034916768164
0.61733658140479086
0.61652456354039786
0.64778725131952908
0.58384084449857898
.
sklearn의 RFECV 모듈을 사용하여 2 배로 높은 교차 유효성 검증을 수행하는 최적의 기능 수를 찾습니다. 나는 산정 인자로 능선 회귀 분석기를 사용하고있다. rfecv = RFECV(estimator=ridge,step=1, cv=KFold(n_splits=2))
rfecv.fit(df, y)
표준 데이터 조정기를 사용하여 표준화 한 데이터
안녕하세요 xgboost의 feature_importance를 사용하여 그래프를 그렸습니다. 그러나 그래프는 "f 값"을 반환합니다. 어떤 기능이 그래프에 표시되는지 모르겠습니다. 이 문제를 해결하는 방법에 대해 들었던 한 가지 방법은 데이터 프레임 내의 지형지 물 인덱스를 feature_importance "f-values"의 인덱스에 매핑하고 열을 수동
제목이 완전한 의미인지 확실하지 않으므로 미안합니다. 저는 Machine Learning을 처음 사용하고 Scikit 및 의사 결정 트리를 사용하고 있습니다. 내가 원한다. 모든 입력을 받아 클라이언트 ID 인 고유 기능을 포함하고 싶습니다. 이제 클라이언트 ID는 고유하며 의사 결정 트리 분석에서 기능이 일반적인 방식으로 합산 될 수 없습니다. 이제는 트
저는 PCA를하고 있으며 본래의 특징이 가장 중요하다고 생각합니다. 내가 예와이를 설명하자 import numpy as np
from sklearn.decomposition import PCA
X = np.array([[1,-1, -1,-1], [1,-2, -1,-1], [1,-3, -2,-1], [1,1, 1,-1], [1,2,1,-1], [1,3,