이탈리아어를 포함한 텍스트 파일의 인코딩을 탐지하기 위해 chardet을 사용하고 있습니다. 문제는 iso-8859-2로 인코딩을 일관되게 감지하는 반면 올바른 감지는 iso-8859-1이된다는 점입니다. 아무도 수정 사항을 알고 있습니까? 로컬 언어가 폴란드어로 설정되어 있습니까? 그것이 탐지에 영향을 미칠 수 있습니까?이탈리아어는 iso-8859-2로 표시됩니다.
0
A
답변
1
chardet은 iso-8859-1을 지원하지 않기 때문에 감지하지 못합니다. 지원되는 문자 인코딩은 chardets 홈페이지 - http://pypi.python.org/pypi/chardet을 참조하십시오.
리눅스 프로그램 'file'을 사용하여 다른 콘텐츠의 문자 인코딩을 얻지 만 얼마나 안전한지 잘 모르겠습니다. 제 질문 - Encoding detection in Python, use the chardet library or not?을 참조하십시오. 그러나 그것은 지금까지 저에게 큰 결과를 가져옵니다.
Btw, 현지 언어가 감지에 영향을 미치지 않아야합니다.
관련 문제
- 1. 메시지가 표시됩니다. 프로그램을 닫을 때 메시지가 표시됩니다.
- 2. NSString에서 EXC_BAD_ACCESS가 표시됩니다. 로그에 잘못된 CFStringRef가 표시됩니다.
- 3. 이 표시됩니다.
- 4. JPanel이 JMenuBar 뒤에 표시됩니다.
- 5. GPS 위치 정보가지도에 표시됩니다.
- 6. 에 상태 메시지가 표시됩니다.
- 7. 모달보기 컨트롤러가 느리게 표시됩니다.
- 8. 배경이 모든 탭에 표시됩니다.
- 9. PDO 구문이 잘못 표시됩니다.
- 10. 주소를 클릭하면 Google지도가 표시됩니다.
- 11. 문자열이 이상한 기호로 표시됩니다.
- 12. Google지도의 OverlayItem에 행이 표시됩니다.
- 13. 목록에 'del'이 표시됩니다.
- 14. linearGradient가 하나의 색상으로 표시됩니다.
- 15. DevicePolicyManager를 사용하여 암호가 표시됩니다.
- 16. Json 객체가 목록보기에 표시됩니다.
- 17. Scrollview의 ImageView가 거꾸로 표시됩니다.
- 18. 격자보기 열이 파란색으로 표시됩니다.
- 19. 코드는 텍스트 출력으로 표시됩니다.
- 20. 복잡한 필드가 회색으로 표시됩니다.
- 21. BufferedImage : 빨간색이 회색으로 표시됩니다.
- 22. 설정 버튼이 표시됩니다.
- 23. UIActionView가 잘못 표시됩니다.
- 24. 배경 이미지가 간략하게 표시됩니다.
- 25. 패키지 탐색기에서 오류가 표시됩니다
- 26. 1.0f를 반환하면 1065353216이 표시됩니다.
- 27. group_concat 결과가 PHP로 표시됩니다
- 28. 트위터 위젯에서만 링크가 표시됩니다.
- 29. SystemConfiguration.framework가 빨간색으로 표시됩니다.
- 30. IE 9에서 FB.login이 표시됩니다.
더 많은 이탈리아어 문자를 사용하십시오. –
iso-8859-2는 동유럽 언어 용이므로 탐지에 영향을 줄 수 있습니다. 인코딩을 감지하는 데 어떤 방법을 사용합니까? – Junuxx
Junuxx - '감지'방법을 사용하고 있습니다. chardet.detect (텍스트) – twowo