2017-12-20 2 views
0

나는 Python 3, Windows (220k rows)에서 데이터 프레임을 작성하고 csv. 에서 열기 및 파일은 괜찮습니다 (220k 행). 에서 읽기 팬더를 사용하여 현재 파일이 다양한 인코딩 오류를 추가 40K 행이 종종있다pandas to_csv read_csv 인코딩 오류

여러를 포함 to_csv/read_csvencoding= 조합, 시도 해 봤나 :. utf-8, utf-8-sig, cp1252, asciiutf-16 은 밖으로 쓰기 :

012 3,656,

I 읽기 종종 경고를 얻을 : 나는 dtypes DICT를 저장할 때 to_csvread_csv에 대한 입력과 같은 DICT를 사용하여 컬럼에 대한 dtypes를 지정 시도 DtypeWarning: Columns (0,1,3,4,6,7,8,9,10,12,13,14,15,16,17,18,19,20,21,22,23,25,26,27,28,29,30,31,32,37,38,39,40,41,42,43,46,47,48,49,50,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,91,92,93,94,95,96,97,98,99,100,101,102) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result)

을 -뿐만 아니라 준 예기치 않은 데이터 유형이 발견되어 오류가 발생했습니다. ValueError: Integer column has NA values in column 33

Excel 파일로 출력 할 때 제대로 작동하는 것 같습니다. Python 2.7 설치를 시도하면 같은 문제가 발생합니다.

내가 가져온 제 3 자 csv 파일에 문제가있는 것으로 의심됩니다.이 파일은 'cp1252'를 사용할 때만 가져 오는 것으로 보입니다. 나는이 입력 파일을 Excel에서 utf-8을 사용하여 다시 저장하려고 시도했지만이 방법도 작동하지 않았습니다.

의견을 보내 주셔서 감사합니다.

+0

어떤 세퍼레이터를 사용하고 있습니까? csv가 제대로 처리되지 않으면 추가 행이 발생할 수 있습니다. – Ryu

+0

@Ryu '시도한', ' – dreab

+0

csv 파일에 분리 자 이외의 쉼표가 포함되어 있습니까? 그렇다면 CSV를 읽을 때 다른 분리자를 사용하라고 제안합니다. – Ryu

답변

0

DtypeWarning 팬더가 모든 열의 데이터 유형을 추론 할 수 없어서 나타납니다. dtype 매개 변수에 str을 설정하면 경고가 사라집니다.

참조 : 팬더를 사용하여 https://stackoverflow.com/a/27232309/5182482

읽기 지금 파일이 다양한 인코딩 오류가 종종 추가 40K 행이 있고.

정확하게이 문제에 대해 알려 드릴 수 없습니다.

관련 문제