2010-12-06 1 views
2

Python (openblock)에서 일괄 가져 오기 스크립트를 실행하면 "UTF8"인코딩에 대해 다음과 같은 잘못된 바이트 시퀀스가 ​​표시됩니다. 악센트 문자 :Python 및 Postgres에서 배치 데이터베이스 가져 오기에서 악센트 부호가있는 문자를 처리하는 방법

그것은으로 나타납니다 : NE GRAND-CH

COUR DU

을하지만 실제로 "GRAND-CHENE, COUR DU는"

이 처리하는 가장 좋은 방법은 무엇입니까? 이상적으로는 악센트 부호가있는 문자를 유지하고 싶습니다. 나는 그것을 어떻게 든 부호화해야한다고 생각한다.

:? 실제로 Ê라고합니다. 또한 변수가 ESRI Shapefile에서 나옵니다. 데이빗 크 로우 (Davidcrow)의 솔루션을 시도하면 악센트가없는 문자가 이미 유니 코드 문자열이기 때문에 "유니 코드 지원되지 않음"이 발생합니다. 여기

은 내가 사용하고있어 ESRIImporter 코드입니다 :

from django.contrib.gis.gdal import DataSource 

class EsriImporter(object): 
    def __init__(self, shapefile, city=None, layer_id=0): 
     print >> sys.stderr, 'Opening %s' % shapefile 
     ds = DataSource(shapefile) 

     self.layer = ds[layer_id] 
     self.city = "OTTAWA" #city and city or Metro.objects.get_current().name 
     self.fcc_pat = re.compile('^(' + '|'.join(VALID_FCC_PREFIXES) + ')\d$') 

    def save(self, verbose=False): 
     alt_names_suff = ('',) 
     num_created = 0 
     for i, feature in enumerate(self.layer): 
      #if not self.fcc_pat.search(feature.get('FCC')): 
      # continue 
      parent_id = None 
      fields = {} 
      for esri_fieldname, block_fieldname in FIELD_MAP.items(): 
       value = feature.get(esri_fieldname) 
       #print >> sys.stderr, 'Looking at %s' % esri_fieldname 

       if isinstance(value, basestring): 
        value = value.upper() 
       elif isinstance(value, int) and value == 0: 
        value = None 
       fields[block_fieldname] = value 
      if not ((fields['left_from_num'] and fields['left_to_num']) or 
        (fields['right_from_num'] and fields['right_to_num'])): 
       continue 
      # Sometimes the "from" number is greater than the "to" 
      # number in the source data, so we swap them into proper 
      # ordering 
      for side in ('left', 'right'): 
       from_key, to_key = '%s_from_num' % side, '%s_to_num' % side 
       if fields[from_key] > fields[to_key]: 
        fields[from_key], fields[to_key] = fields[to_key], fields[from_key] 
      if feature.geom.geom_name != 'LINESTRING': 
       continue 
      for suffix in alt_names_suff: 
       name_fields = {} 
       for esri_fieldname, block_fieldname in NAME_FIELD_MAP.items(): 
        key = esri_fieldname + suffix 
        name_fields[block_fieldname] = feature.get(key).upper() 
        #if block_fieldname == 'postdir': 
         #print >> sys.stderr, 'Postdir block %s' % name_fields[block_fieldname] 


       if not name_fields['street']: 
        continue 
       # Skip blocks with bare number street names and no suffix/type 
       if not name_fields['suffix'] and re.search('^\d+$', name_fields['street']): 
        continue 
       fields.update(name_fields) 
       block = Block(**fields) 
       block.geom = feature.geom.geos 
       print repr(fields['street']) 
       print >> sys.stderr, 'Looking at block %s' % unicode(fields['street'], errors='replace') 

       street_name, block_name = make_pretty_name(
        fields['left_from_num'], 
        fields['left_to_num'], 
        fields['right_from_num'], 
        fields['right_to_num'], 
        '', 
        fields['street'], 
        fields['suffix'], 
        fields['postdir'] 
       ) 
       block.pretty_name = unicode(block_name) 
       #print >> sys.stderr, 'Looking at block pretty name %s' % fields['street'] 

       block.street_pretty_name = street_name 
       block.street_slug = slugify(' '.join((unicode(fields['street'], errors='replace'), fields['suffix']))) 
       block.save() 
       if parent_id is None: 
        parent_id = block.id 
       else: 
        block.parent_id = parent_id 
        block.save() 
       num_created += 1 
       if verbose: 
        print >> sys.stderr, 'Created block %s' % block 
     return num_created 

출력 :에 대한 자세한 내용은 http://evanjones.ca/python-utf8.html를 참조

uString = unicode(item.field, "utf-8")

: 당신은 뭔가를 시도 할 수 있습니다

'GRAND-CH\xcaNE, COUR DU' 
Looking at block GRAND-CH�NE, COUR DU 
Traceback (most recent call last): 

    File "../blocks_ottawa.py", line 144, in <module> 
    sys.exit(main()) 
    File "../blocks_ottawa.py", line 139, in main 
    num_created = esri.save(options.verbose) 
    File "../blocks_ottawa.py", line 114, in save 
    block.save() 
    File "/home/chris/openblock/src/django/django/db/models/base.py", line 434, in save 
    self.save_base(using=using, force_insert=force_insert, force_update=force_update) 
    File "/home/chris/openblock/src/django/django/db/models/base.py", line 527, in save_base 
    result = manager._insert(values, return_id=update_pk, using=using) 
    File "/home/chris/openblock/src/django/django/db/models/manager.py", line 195, in _insert 
    return insert_query(self.model, values, **kwargs) 
    File "/home/chris/openblock/src/django/django/db/models/query.py", line 1479, in insert_query 
    return query.get_compiler(using=using).execute_sql(return_id) 
    File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 783, in execute_sql 
    cursor = super(SQLInsertCompiler, self).execute_sql(None) 
    File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 727, in execute_sql 
    cursor.execute(sql, params) 
    File "/home/chris/openblock/src/django/django/db/backends/util.py", line 15, in execute 
    return self.cursor.execute(sql, params) 
    File "/home/chris/openblock/src/django/django/db/backends/postgresql_psycopg2/base.py", line 44, in execute 
    return self.cursor.execute(query, args) 

django.db.utils.DatabaseError: invalid byte sequence for encoding "UTF8": 0xca4e 
HINT: This error can also happen if the byte sequence does not match the encoding expected by the server, which is controlled by "client_encoding". 
+0

아니요, "솔루션"이 유니 코드를 생성하고 그것을 좋아하지 않는 무언가에 먹이기 때문에 "유니 코드가 지원되지 않습니다"가 발생합니다. 그러지 마. –

답변

3

자세한 내용을 참조하십시오. 어떤 플랫폼? Windows/Linux/???

어떤 버전의 파이썬입니까?

Windows를 실행하는 경우 인코딩은 cp1252 또는 ISO-8859-1 일 가능성이 훨씬 높습니다. 확실히 UTF-8이 아닙니다.

다음 작업이 필요합니다. (1) 입력 데이터가 인코딩 된 항목을 찾으십시오. 시도해보십시오 cp1252; 평소 용의자 야. (2) 데이터를 유니 코드로 디코딩 (3) UTF-8로 인코딩합니다.

어떻게 ESRI shapefile에서 데이터를 가져오고 있습니까? 코드를 보여주십시오. 전체 추적 및 오류 메시지를 표시하십시오. 시각적 인 문제를 피하려면 (E-grave! no, E-acute!) print repr(the_suspect_data) 그리고 결과를 복사하여 질문의 편집에 붙여 넣으십시오. 대담한 유형으로 쉽게 이동하십시오.

+0

@Chris : 오타와 ->'cp1252'. 'django.contrib.gis.gdal.DataSource'에 대한 문서를보고 어디에서나 인코딩을 언급하는지 확인해야합니다. 어쨌든 데이터베이스에 넣기 위해 UTF-8로 데이터를 가져오고 싶다면 /exri_text.decode ('뭐든지'), encode ('utf8')'어떻게해야하는지 (어쩌면 두 단계). –

+0

나는 인코딩에 관해서는 문서에서 아무것도하지 않았지만, 디코드는 엔코 드를 훌륭하게 처리했다! 정말 고마워! 인코딩 세계에서 내 머리를 감싸는 많은 것들. – Chris

-3

유니 코드와 파이썬.

+0

당신은 그가 파이썬 소스 코드 내의 데이터베이스에 덤핑하는 wevery 문자열을 하드 코딩한다고 가정하고 있습니까? 그것은 이것을 사용하는 유일한 caise가 작동 할 것입니다. – jsbueno

+0

개체 또는 목록에 값을 할당 할 수 있다고 가정합니다. 데이터의 출처를 알지 못하면 개별 문자열을 초월하여 추상화 할 가치가 없습니다. – davidcrow

+0

이 경우에는 실제로 개별 문자열에 대해서만 잘 수행 할 수 있다고 생각합니다. 처음부터 코드를 포함시키지 않아서 죄송합니다. – Chris

1

데이터가 UTF-8로 전송되지 않는 것처럼 보입니다. DB 세션에서 client_encoding 매개 변수를 확인하거나 파일을 읽을 때 Python 내의 UTF-8/유니 코드로 변환하십시오.

"SET client_encoding = 'ISO-8859-1' '또는 이와 유사한 방법을 사용하여 DB 세션의 클라이언트 인코딩을 변경할 수 있습니다. 0xca는 라틴어 1에서는 E-with-grave가 아니므로 파일을 인코딩하는 문자가 무엇인지 잘 모르겠습니다.

+0

그 밖의 모든 문자열에 악센트 부호가없는 문자가 없으면 "유니 코드를 지원하지 않습니다. "오류가 발생합니다.이 오류는 문자열이 이미 유니 코드 인 경우에 발생할 수 있습니다. 따라서 악센트가있는 문자 나 문자열이 문제가되는 것처럼 보입니까? – Chris

+0

정확히 어디에서 오류가 발생 했습니까? 저는 파이썬에 익숙하지 않지만 PostgreSQL 오류처럼 기억하지 않습니다. – araqnid

+0

0xca는 ISO-8859-1 btw의 곡절 기호와 함께 E로 표시됩니다. 진실로 db 세션에 대한 client_encoding 설정을 변경하는 것은 기본적으로 문자를 데이터베이스에 디코딩하는 벅을 데이터베이스에 전달하여 작동해야합니다. – araqnid

관련 문제