데이터 집합이 X
(1741, 61) 인 데이터 집합이 있습니다. cross_validation과 함께 로지스틱 회귀 분석을 사용하여 각 분할 (CV = 5)에 대해 62-65 % 가량 증가했습니다.Scikit_learn의 PolynomialForeatures 로지스틱 회귀로 점수가 낮아짐
데이터를 2 차로 만들면 정확도가 증가한다고 생각했습니다. 그러나, 나는 반대 효과를 얻고있다. (나는 cross_validation의 각 분할을 40 %의 비율로 얻는다.) 그래서, 데이터를 2 차적으로 만들려고 할 때 나는 잘못된 것을하고 있다고 생각하고 있는가? 여기
나를 의심하게 내가 사용 코드,from sklearn import preprocessing
X_scaled = preprocessing.scale(X)
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(3)
poly_x =poly.fit_transform(X_scaled)
classifier = LogisticRegression(penalty ='l2', max_iter = 200)
from sklearn.cross_validation import cross_val_score
cross_val_score(classifier, poly_x, y, cv=5)
array([ 0.46418338, 0.4269341 , 0.49425287, 0.58908046, 0.60518732])
, 내가 뭔가 잘못하고 있어요.
원시 데이터를 2 차로 변환 한 다음 preprocessing.scale
을 사용하여 데이터의 크기를 조정하려고 시도했지만 오류가 발생했습니다.
UserWarning: Numerical issues were encountered when centering the data and might not be solved. Dataset may contain too large values. You may need to prescale your features. warnings.warn("Numerical issues were encountered "
또 다른 문제는 이차 계산의 속도입니다. cross_val_score는 다항식 기능을 사용할 때 점수를 출력하는 데 몇 시간 정도 걸립니다. 이 속도를 높이는 방법이 있습니까? 나는 램, 윈도우 7 OS의 16 기가 바이트와 인텔 i5 - 6500 CPU가 있습니다.
감사합니다.
흥미로운 점이 있습니다. 나는 그것을 테스트하고 당신이 링크 한 블로그를 읽을 것입니다.고맙습니다. – Moondra
PolyMatch로 MinMaxScaler를 처음 사용하면 정확도가 향상됩니다. 약간 시간이 걸릴지 모르지만 나는 그것을 몇 번 더 시험 할 것이다. – Moondra
MinMaxScaler를 사용하면 더 높은 정확도를 얻었지만, 일반적인 스케일링으로 더 높은 정확도를 얻었습니다. – Moondra