2017-02-11 3 views
0

저는 데이터 과학을 위해 Python을 배우기 시작했습니다. 나는 거의 매일 R을 사용하고있다. 나는 첫 걸음에 쌓인다. 나는 Pandas read_csv 파일 방법을 사용하여 CSV 파일을 가져 오려고합니다. 가져 오는 동안 파일을 인코딩하는 데 문제가 있습니다.팬더를 사용하여 Python에서 csv를 가져 오는 중 오류가 발생했습니다.

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8') 

하지만 파이썬에서 유사한 코드를 사용하는 경우 : : 나는 R의 모든 것을에서 read.csv 사용하는 경우

괜찮

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte 
:

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8') 

는 오류를 반환

R에서는 "utf-8"인코딩을 사용하지만 Python에서는 인코딩하지 않는 파일을 어떻게 가져올 수 있습니까?

다른 인코딩 (latin1 또는 iso-8859-1)을 사용하면 파일을 성공적으로 가져 오지만 문자는 올바른 방법으로 인코딩되지 않습니다.

+0

좋아,'cp1250' 인코딩이 정상적으로 작동한다고 가정 해 보겠습니다. – Mislav

+0

문제를 더 잘 이해할 수 있도록 'myfile.txt'샘플을 보여주십시오. –

답변

0

UTF-8이 R에서 작동하지만 파이썬에서는 작동하지 않는 이유가 이해되지 않더라도 cp1250 인코딩이 정상적으로 작동한다는 것을 알았습니다.

-1

인코딩 "UTF-16"을 사용하십시오. 같은 오류로 내 문제를 해결하는 데 사용했습니다.

+0

'utf-16'을 사용하면 문제가 해결되었거나 여전히 동일한 문제가 발생했음을 의미합니까? – Simon

관련 문제