chardet

    10

    2답변

    나는 어떤 문자 인코딩도 될 수있는 대량의 텍스트를 입력으로 사용하는 응용 프로그램을 작성하고 있는데,이 모든 것을 UTF-8로 저장하려고합니다. 데이터로 정의 된 문자 인코딩 (있는 경우)을 수신하거나 신뢰할 수 없습니다. 원래 Pythons 라이브러리 chardet을 사용하여 원래 문자 인코딩 http://pypi.python.org/pypi/chard

    0

    1답변

    이탈리아어를 포함한 텍스트 파일의 인코딩을 탐지하기 위해 chardet을 사용하고 있습니다. 문제는 iso-8859-2로 인코딩을 일관되게 감지하는 반면 올바른 감지는 iso-8859-1이된다는 점입니다. 아무도 수정 사항을 알고 있습니까? 로컬 언어가 폴란드어로 설정되어 있습니까? 그것이 탐지에 영향을 미칠 수 있습니까?

    3

    1답변

    팬더에 데이터 세트를로드하려고하는데 1 단계를 지나갈 것 같지 않습니다. 새로운 내용이므로 분명한 점은 용서 해주세요. 이전 주제를 검색했으나 찾을 수 없습니다. 대답. 데이터는 주로 한자로되어 있으며 문제가 될 수 있습니다. .CSV 형식은 매우 큰이며, 여기에서 찾을 수 있습니다 : 내가 아래에있는 내 코드에서 주 1 에 노력하고 http://weibo

    2

    1답변

    대용량 (약 기가 바이트)의 플랫 파일 데이터베이스를 디코딩했는데, 문자 인코딩을 전혀 사용하지 않았습니다. 파이썬 모듈 chardet는 인코딩을 식별하는, 지금까지 좋은 일을하지만, 장애물에 충돌하면 ... In [428]: badish[-3] Out[428]: '\t\t\t"Kuzey r\xfczgari" (2007) {(#1.2)} [Kaz\xc4\

    3

    1답변

    chardet 모듈을 사용하는 코드를 사용하고 싶습니다. https://pypi.python.org/pypi/chardet#downloads chardet : 나는 두 가지 선택이, 을하지만 : import urllib2 import chardet def fetch(url): try: result = urllib2.urlopen(url)

    0

    1답변

    rchardet이 ISO-8859-1 및 Windows-1252의 인코딩을 지원하는지 여부를 알고 싶습니다. 나는 문서를 보았지만 이것에 대한 적절한 정보를 얻지 못했습니다.