큰 Excel 스프레드 시트를 유니 코드로 저장하여 생성 된 파일이 500MB 이상 있습니다. Windows 7을 실행 중입니다.팬더에서 특수 문자로 큰 파일 읽기
python pandas로 파일을 열어야합니다. 지금까지 필자는 ANSI에서 메모장 + +로 UTF-8로 파일을 변환하는 데 사용했지만 파일이 너무 커서 메모장 + +로 열었습니다.
나는 히브리어, 프랑스어, 스웨덴어, 노르웨이어, 덴마크어 특수 문자가 있습니다.
- 팬더의
read_excel
은 너무 느립니다. * 출력물을 보지 않고 몇 분간 보냅니다. iconv
: 나는 tried이있을 때 분명히 내가 인코딩 권리를 얻을 수 없다, 난 그냥 탭으로 구분 된 널 (null)의 목록을 얻을 :의 iconv -f "CP858"-t "UTF-8"은 File2.txt > file2.txt
"UTF-8">은 file2.txt file2.txt
편집 -t의 iconv -f "창-1252"
iconv -f "UTF-16le" -t "UTF-8" file1.txt > file2.txt
은 매우 이상한 행동으로 이어집니다. 줄 사이의 줄이 잘립니다. 모두 괜찮아 보이지만 실제로는 80K 행만 변환됩니다.
편집
2 .. encoding='utf-16le'
와 read_csv
제대로 파일을 읽습니다. 그러나, 나는 아직도 왜 iconv
그것을 망칠 지 모르겠다.