2017-12-29 25 views
0

저는 Power Ge'ez에서 Ethiopic 글꼴로 작성된 Excel (csv) 파일을 가지고 있습니다. 그러나 파이썬에서 파일을 읽을 때 폰트를 인식하지 못하면 그냥 물음표가 생깁니다. 이 글꼴이 어떻게 사용되는지 모르지만 유니 코드 문자를 사용할 수 있다는 것을 알고 있습니다. 하지만 파이썬 3.6에서 어떻게 사용하고 읽는지 모르겠습니다. 도와 주셔서 감사합니다.에티오피아 글꼴을 python3에 추가하는 방법은 무엇입니까?

팬터 데이터 프레임에 에티오피아 글꼴로 열 이름을 추가 할 수 있지만 결과는 모든 결과 데이터 프레임 출력에 대해 NaN입니다.

+0

어떻게 Excel 파일을 읽습니까? 정확히 어디에 물음표가 보입니까? 더 이상 알지 못하면 Python에서 문제가 발생하는지조차 확인할 수 없으며 예를 들어. 귀하의 터미널. – nnnmmm

+0

물음표는 ethiopic 문자가 포함 된 "name"필드가있는 한 열의 모든 텍스트와 열 이름에 모두 있습니다. 나는 또한 질문을 편집했다. 분명히 pandas는 필드 이름을 출력하지만 모든 숫자 및 텍스트 데이터에 대해 NaN을 제공합니다. – Kaleab

+0

excel (csv) 파일을'raw_data = 'hidar_2010.csv''로 읽습니다. – Kaleab

답변

1

자세한 정보가 유용 할 것입니다. 하지만 파이썬에서 어떻게 그 문자를 사용하는지 말할 수 있습니다. 이 방법은 모든 유니 코드 문자에 대해 작동해야합니다.

짧은 대답 : 텍스트에 삽입 할 문자의 유니 코드 코드를 식별하십시오. this site (이미 Ethiopic 하위 집합을 찾았습니다)에서 살펴볼 수 있습니다.

각 문자에 대해 유니 코드와 HTML이 두 코드 (U + ...)가 필요합니다. 예를 들어, 'ha'의 문자는 U + 1200입니다. 파이썬에서 이들을 참조 할 필요가있는 것은 '\ u1200'입니다 (볼 수있는 '+'부호 없음).

예. 텍스트 파일 (UTF-8이되기를 원함)의 인코딩에도주의를 기울여야합니다. 이것이 내가 같은 성격을 위해 한 일입니다.

x = '\u1200' 

with open ('text.txt', encoding='utf-8', mode='w') as text_file: 
    text_file.write(x) 

항상 인코딩을 지정해야하는지 확실하지 않은 경우 안전한쪽으로 가기로 결정했습니다.

P. 가치 언급 : 당신처럼 긴 문자열에 또한 유니 코드 caracters을 참조하는이 방법을 사용할 수 있습니다 :이 도움이

'The Ethiopic sillable Ha: \u1200' 

희망을!

+0

그럼 어떻게 \ 1200 ~ 137F 문자를 포함합니까? – Kaleab

+0

@Kaleab U + 1200과 U + 137F 사이의 모든 문자를 의미하는 경우, 각 문자에 대해 특정 코드를 사용해야 할까봐 걱정됩니다. ha = '\ u1200'와 같은 할당을 사용하여 스크립트에 일종의 맵을 작성하고 코드에서 변수의 이름을 사용할 수 있습니다. IPA 심볼을 사용해야하는 프로젝트에서 사용했습니다. 불행히도 덜 공통적 인 문자 (라틴 문자가 아닌 문자)를 사용하는 경우 문자 관리가 빠르게 노동 집약적입니다. – Alessandro

관련 문제