2015-01-15 4 views
0

큰 Excel 스프레드 시트를 유니 코드로 저장하여 생성 된 파일이 500MB 이상 있습니다. Windows 7을 실행 중입니다.팬더에서 특수 문자로 큰 파일 읽기

python pandas로 파일을 열어야합니다. 지금까지 필자는 ANSI에서 메모장 + +로 UTF-8로 파일을 변환하는 데 사용했지만 파일이 너무 커서 메모장 + +로 열었습니다.

나는 히브리어, 프랑스어, 스웨덴어, 노르웨이어, 덴마크어 특수 문자가 있습니다.

  • 팬더의 read_excel은 너무 느립니다. * 출력물을 보지 않고 몇 분간 보냅니다.
  • iconv : 나는 tried이있을 때 분명히 내가 인코딩 권리를 얻을 수 없다, 난 그냥 탭으로 구분 된 널 (null)의 목록을 얻을 :

    의 iconv -f "CP858"-t "UTF-8"은 File2.txt > file2.txt

    "UTF-8">은 file2.txt file2.txt

편집 -t의 iconv -f "창-1252"

iconv -f "UTF-16le" -t "UTF-8" file1.txt > file2.txt은 매우 이상한 행동으로 이어집니다. 줄 사이의 줄이 잘립니다. 모두 괜찮아 보이지만 실제로는 80K 행만 변환됩니다.

편집

2 .. encoding='utf-16le'read_csv 제대로 파일을 읽습니다. 그러나, 나는 아직도 왜 iconv 그것을 망칠 지 모르겠다.

답변

0

read_csvencoding='utf-16le'은 파일을 올바르게 읽습니다. 그러나, 나는 아직도 왜 iconv 그것을 망칠 지 모르겠다.