utf-8로 인코딩 된 텍스트 파일을 읽었습니다. 일부 라인은 latin-1로만 디코딩 될 수 있습니다. 나는 이것이 매우 나쁜 습관이라고 말하지만 그럼에도 불구하고 나는 그것에 대처해야만한다.다중 인코딩을 사용하는 파일
나는 다음과 같은 질문이 :
첫째 : 어떻게 파일의 인코딩을 "추측"할 수 있습니까? 나는 enca
을 시도했지만 내 컴퓨터에서있다 : 라틴어-1 감지하는 것만으로는 충분하지 않습니다
enca --list languages
belarussian: CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855 KOI8-U
bulgarian: CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
czech: ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
estonian: ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
croatian: CP1250 ISO-8859-2 IBM852 macce CORK
hungarian: ISO-8859-2 CP1250 IBM852 macce CORK
lithuanian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
latvian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
polish: ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK
russian: KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
slovak: CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
slovene: ISO-8859-2 CP1250 IBM852 macce CORK
ukrainian: CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
chinese: GBK BIG5 HZ
none:
합니다. 덧붙여서 : enca
에 사용할 수있는 언어 목록을 늘리려면 어떻게해야합니까?
두 번째 : 파일을 부분적으로 다른 인코딩으로 인코딩 할 수 있습니까? 기술적 인 관점에서 볼 때 이것은 매우 가능하다고 생각합니다. 파일의 다른 부분에 다른 코덱을 사용하기 만하면됩니다. 이걸 본 적이 있니? 그런 파일을 어떻게 읽으시겠습니까? 다른 인코딩으로 각 행을 디코딩하려고합니까? 어떻게 이것에 대해 가겠습니까? 나는 실제로 파이썬을 사용하고 있으며 다중 인코딩을 처리하는 예제는 높이 평가 될 것이다.
셋째 : 일반적으로 사용하는 인코딩을 모르는 파일은 어떻게합니까? 다른 소스에서 텍스트 파일을 다운로드 할 때이 문제가 자주 발생합니다. 일반적으로 스프레드 시트에서 내 보낸 CSV 파일 (Excel 같음)이지만 내보내기 매개 변수에 따라 어떤 인코딩인지 또는 다른 인코딩을 사용하는지, 힌트는 선택되지 않았으므로 추측해야합니다.
어떻게 바이너리 버퍼의 인코딩을 결정합니까? – dangonfast
추론, 추측 및 통계 분석. 일반적으로 라이브러리 나 도우미 프로그램을 사용합니다. 따라서 첫 번째 질문 : 어떤 기술을 사용하고 있습니까? – Joni
나는 파이썬을 사용하고 있지만, 파일에 사용 된 인코딩을 발견하는 * 모든 * 방법이 필요합니다. – dangonfast