2017-12-22 3 views
1

저는 파이썬을 처음 사용합니다. 트윗을 정리 한 CSV 파일이 있습니다. 나는이 짹짹의 단어의 가방을 만들고 싶다. 다음 코드가 있지만 제대로 작동하지 않습니다.어떻게 파이썬에서 CSV 파일에서 단어의 가방을 만들 수 있습니까?

import pandas as pd 
from sklearn import svm 
from sklearn.feature_extraction.text import CountVectorizer 

data = pd.read_csv(open("Twidb11.csv"), sep=' ') 
count_vect = CountVectorizer() 
X_train_counts = count_vect.fit_transform(data.Text) 
count_vect.vocabulary_ 

오류 :

.ParserError: Error tokenizing data. C error: Expected 19 fields in line 5, saw 22

+1

[Python Pandas Error tokenizing data] (https://stackoverflow.com/questions/18039057/python-pandas-error-tokenizing-data)의 가능한 복제본 –

+0

코드에서 * 정확하게 어디에서 확인할 수 있습니까? 오류가 발생했습니다 ... – desertnaut

+0

지금 코드를 실행할 때 'DataFrame'개체에 'Text'특성이 없습니다 –

답변

0

내가 생각 중복입니다. U는 대답 here을 볼 수 있습니다. 많은 답변과 의견이 있습니다.

data = pd.read_csv('Twidb11.csv', error_bad_lines=False) 

또는 :

그래서

, 해결책은 될 수

df = pandas.read_csv(fileName, sep='delimiter', header=None) 

"위의 코드에서 9 월은 구분 기호와 헤더 = 없음 원본 데이터가 어떤 행이 없습니다 팬더를 알려줍니다 정의 "파일에 헤더 행이 없으면 header = None을 명시 적으로 전달해야합니다.이 경우 pandas는 각 필드 {0,1,2 ,.}에 대해 자동으로 전체 숫자 indeces를 만듭니다. ..}. "

+0

코드를 실행할 때 지금 오류가 발생합니다. 'DataFrame'개체에 ' 본문' –

관련 문제