나는 Python 3, Windows (220k rows)에서 데이터 프레임을 작성하고 csv. 에서 열기 및 파일은 괜찮습니다 (220k 행). 에서 읽기 팬더를 사용하여 현재 파일이 다양한 인코딩 오류를 추가 40K 행이 종종있다pandas to_csv read_csv 인코딩 오류
여러를 포함 to_csv
/read_csv
encoding=
조합, 시도 해 봤나 :. utf-8
, utf-8-sig
, cp1252
, ascii
및 utf-16
은 밖으로 쓰기 :
I 읽기 종종 경고를 얻을 : 나는 dtypes
DICT를 저장할 때 to_csv
및 read_csv
에 대한 입력과 같은 DICT를 사용하여 컬럼에 대한 dtypes
를 지정 시도 DtypeWarning: Columns (0,1,3,4,6,7,8,9,10,12,13,14,15,16,17,18,19,20,21,22,23,25,26,27,28,29,30,31,32,37,38,39,40,41,42,43,46,47,48,49,50,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,91,92,93,94,95,96,97,98,99,100,101,102) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result)
을 -뿐만 아니라 준 예기치 않은 데이터 유형이 발견되어 오류가 발생했습니다. ValueError: Integer column has NA values in column 33
Excel 파일로 출력 할 때 제대로 작동하는 것 같습니다. Python 2.7 설치를 시도하면 같은 문제가 발생합니다.
내가 가져온 제 3 자 csv 파일에 문제가있는 것으로 의심됩니다.이 파일은 'cp1252'를 사용할 때만 가져 오는 것으로 보입니다. 나는이 입력 파일을 Excel에서 utf-8을 사용하여 다시 저장하려고 시도했지만이 방법도 작동하지 않았습니다.
의견을 보내 주셔서 감사합니다.
어떤 세퍼레이터를 사용하고 있습니까? csv가 제대로 처리되지 않으면 추가 행이 발생할 수 있습니다. – Ryu
@Ryu '시도한', ' – dreab
csv 파일에 분리 자 이외의 쉼표가 포함되어 있습니까? 그렇다면 CSV를 읽을 때 다른 분리자를 사용하라고 제안합니다. – Ryu