저는 Python의 Building Machine Learning Systems 책 6 장을 통해 트위터 데이터에 대한 정서 분석을하려고합니다. 그것은 추정으로 TFIDF 벡터 기하고 순진 베이 즈 분류기의 파이프 라인을 사용 https://raw.githubusercontent.com/zfz/twitter_corpus/master/full-corpus.csvGridSearchCV.fit()가 TypeError를 반환합니다. 예측 된 시퀀스 또는 배열과 유사합니다. 평가 기가 있습니다.


나는 데이터 집합을 사용하고 있습니다.

그럼 GridSearchCV()를 사용하여 견적 산출기에 가장 적합한 매개 변수를 찾습니다. 다음

코드는 :

from load_data import load_data 
from sklearn.cross_validation import ShuffleSplit 
from sklearn.grid_search import GridSearchCV 
from sklearn.metrics import f1_score 
from sklearn.naive_bayes import MultinomialNB 
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.pipeline import Pipeline 

def pipeline_tfidf_nb(): 
    tfidf_vect = TfidfVectorizer(analyzer = "word") 
    naive_bayes_clf = MultinomialNB() 
    return Pipeline([('vect', tfidf_vect),('nbclf',naive_bayes_clf)]) 

input_file = "full-corpus.csv" 
X,y = load_data(input_file) 
print X.shape,y.shape 

clf = pipeline_tfidf_nb() 
cv = ShuffleSplit(n = len(X), test_size = .3, n_iter = 1, random_state = 0) 

clf_param_grid = dict(vect__ngram_range = [(1,1),(1,2),(1,3)], 
        vect__min_df = [1,2], 
        vect__smooth_idf = [False, True], 
        vect__use_idf = [False, True], 
        vect__sublinear_tf = [False, True], 
        vect__binary = [False, True], 
        nbclf__alpha = [0, 0.01, 0.05, 0.1, 0.5, 1], 

grid_search = GridSearchCV(estimator = clf, param_grid = clf_param_grid, cv = cv, scoring = f1_score) 
grid_search.fit(X, y) 

print grid_search.best_estimator_ 

load_data()는 긍정적 또는 부정적 감정과 CSV 파일의 값을 추출한다.

X는 문자열 (TweetText)의 배열이고 y는 bool 값의 배열입니다 (긍정적 인 정서는 True). 나는 Y X를 재편 시도

runfile('C:/Users/saurabh.s1/Downloads/Python_ml/ch6/main.py', wdir='C:/Users/saurabh.s1/Downloads/Python_ml/ch6') 
Reloaded modules: load_data 
negative : 572 
positive : 519 
(1091,) (1091,) 
Traceback (most recent call last): 

    File "<ipython-input-25-823b07c4ff26>", line 1, in <module> 
    runfile('C:/Users/saurabh.s1/Downloads/Python_ml/ch6/main.py', wdir='C:/Users/saurabh.s1/Downloads/Python_ml/ch6') 

    File "C:\anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile 
    execfile(filename, namespace) 

    File "C:\anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 87, in execfile 
    exec(compile(scripttext, filename, 'exec'), glob, loc) 

    File "C:/Users/saurabh.s1/Downloads/Python_ml/ch6/main.py", line 31, in <module> 
    grid_search.fit(X, y) 

    File "C:\anaconda2\lib\site-packages\sklearn\grid_search.py", line 804, in fit 
    return self._fit(X, y, ParameterGrid(self.param_grid)) 

    File "C:\anaconda2\lib\site-packages\sklearn\grid_search.py", line 553, in _fit 
    for parameters in parameter_iterable 

    File "C:\anaconda2\lib\site-packages\sklearn\externals\joblib\parallel.py", line 800, in __call__ 
    while self.dispatch_one_batch(iterator): 

    File "C:\anaconda2\lib\site-packages\sklearn\externals\joblib\parallel.py", line 658, in dispatch_one_batch 

    File "C:\anaconda2\lib\site-packages\sklearn\externals\joblib\parallel.py", line 566, in _dispatch 
    job = ImmediateComputeBatch(batch) 

    File "C:\anaconda2\lib\site-packages\sklearn\externals\joblib\parallel.py", line 180, in __init__ 
    self.results = batch() 

    File "C:\anaconda2\lib\site-packages\sklearn\externals\joblib\parallel.py", line 72, in __call__ 
    return [func(*args, **kwargs) for func, args, kwargs in self.items] 

    File "C:\anaconda2\lib\site-packages\sklearn\cross_validation.py", line 1550, in _fit_and_score 
    test_score = _score(estimator, X_test, y_test, scorer) 

    File "C:\anaconda2\lib\site-packages\sklearn\cross_validation.py", line 1606, in _score 
    score = scorer(estimator, X_test, y_test) 

    File "C:\anaconda2\lib\site-packages\sklearn\metrics\classification.py", line 639, in f1_score 

    File "C:\anaconda2\lib\site-packages\sklearn\metrics\classification.py", line 756, in fbeta_score 

    File "C:\anaconda2\lib\site-packages\sklearn\metrics\classification.py", line 956, in precision_recall_fscore_support 
    y_type, y_true, y_pred = _check_targets(y_true, y_pred) 

    File "C:\anaconda2\lib\site-packages\sklearn\metrics\classification.py", line 72, in _check_targets 
    check_consistent_length(y_true, y_pred) 

    File "C:\anaconda2\lib\site-packages\sklearn\utils\validation.py", line 173, in check_consistent_length 
    uniques = np.unique([_num_samples(X) for X in arrays if X is not None]) 

    File "C:\anaconda2\lib\site-packages\sklearn\utils\validation.py", line 112, in _num_samples 
    'estimator %s' % x) 

TypeError: Expected sequence or array-like, got estimator Pipeline(steps=[('vect', TfidfVectorizer(analyzer='word', binary=False, decode_error=u'strict', 
     dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
     lowercase=True, max_df=1.0, max_features=None, min_df=1, 
     ngram_range=(1, 1), norm=u'l2', preprocessor=None, 
     smooth_i...e_idf=False, vocabulary=None)), ('nbclf', MultinomialNB(alpha=0, class_prior=None, fit_prior=True))]) 

하지만이 작동하지 않습니다 :


더 많은 데이터가 필요하거나 뭔가 놓친 경우 알려주십시오.




이 오류는 scoring=f1_score을 GridSearchCV 생성자에 사용하여 잘못된 매개 변수를 전달하기 때문에 발생합니다. documentation of GridSearchCV을 살펴보십시오.

A string (see model evaluation documentation) or a scorer callable object/function with signature scorer(estimator, X, y). If None, the score method of the estimator is used.

당신은 잘못 서명 (y_true, y_pred[, ...])과 호출 기능을 전달하는 : 점수 PARAM에서

, 그것은을 요청합니다. 그게 왜 오류가 발생하는지. 채점을 전달하려면 string as defined here을 사용하고, (estimator, X, y) 인 호출 가능 물을 전달해야합니다. 이는 make_scorer을 사용하여 수행 할 수 있습니다.

변경 코드에서이 라인이에

grid_search = GridSearchCV(estimator = clf, param_grid = clf_param_grid, 
          cv = cv, scoring = f1_score) 

는 :

grid_search = GridSearchCV(estimator = clf, param_grid = clf_param_grid, 
          cv = cv, scoring = 'f1') 


grid_search = GridSearchCV(estimator = clf, param_grid = clf_param_grid, 
          cv = cv, scoring = make_scorer(f1_score)) 

나는 문제의 동일한 종류의 대답했다 in this answer here

