2012-10-10 2 views
0

이탈리아어를 포함한 텍스트 파일의 인코딩을 탐지하기 위해 chardet을 사용하고 있습니다. 문제는 iso-8859-2로 인코딩을 일관되게 감지하는 반면 올바른 감지는 iso-8859-1이된다는 점입니다. 아무도 수정 사항을 알고 있습니까? 로컬 언어가 폴란드어로 설정되어 있습니까? 그것이 탐지에 영향을 미칠 수 있습니까?이탈리아어는 iso-8859-2로 표시됩니다.

+5

더 많은 이탈리아어 문자를 사용하십시오. –

+0

iso-8859-2는 동유럽 언어 용이므로 탐지에 영향을 줄 수 있습니다. 인코딩을 감지하는 데 어떤 방법을 사용합니까? – Junuxx

+0

Junuxx - '감지'방법을 사용하고 있습니다. chardet.detect (텍스트) – twowo

답변

1

chardet은 iso-8859-1을 지원하지 않기 때문에 감지하지 못합니다. 지원되는 문자 인코딩은 chardets 홈페이지 - http://pypi.python.org/pypi/chardet을 참조하십시오.

리눅스 프로그램 'file'을 사용하여 다른 콘텐츠의 문자 인코딩을 얻지 만 얼마나 안전한지 잘 모르겠습니다. 제 질문 - Encoding detection in Python, use the chardet library or not?을 참조하십시오. 그러나 그것은 지금까지 저에게 큰 결과를 가져옵니다.

Btw, 현지 언어가 감지에 영향을 미치지 않아야합니다.

관련 문제