2011-12-14 4 views
-1

내 친구들과 나는 아이폰과 안드로이드 용 앱을 개발 중이다. 우리는 필사의 말로 작업해야합니다. 우리의 응용 프로그램에서 정확한 단어 필사를 나타내려면 어떤 인코딩 (또는 특수 폰트)을 선택해야합니까?필사본을 위해 선택해야하는 인코딩은 무엇입니까?

업데이트 (2011 년 12 월 14 일) : 자세한 정보를 제공해 드리고 싶습니다. 나는 뮬러 사전 (http://sourceforge.net/projects/xdxf/files/dicts-XDXF/sdict05/comn_sdict_axm05_mueller24.tar.bz2/download)에서 일부 필사본을 읽으려고 시도하고 일부 문자에 문제가 있습니다. 나는 문제가 단어의 enca

~/mueller24 % enca dict.xdxf               
Universal transformation format 8 bits; UTF-8 

하나는 '화가'는 함께 사전 파일의 인코딩을 확인한다. 내가 이맥스에서 사전 파일을 열 때 나는 참조 : 데이터

enter image description here

루비로 작성 우리의 스크립트를 작동합니다. 사전에서이 전사를 파싱하고 데이터베이스에 저장합니다. 그 후 데이터베이스에서이 녹음을 가져 와서 json으로 파일에 기록했습니다 (utf-8).

enter image description here

실수입니다 : 내가 텍스트 편집기에서이 파일을 열면 나는이 문자열 같은 \u0445peInt\u255a

그리고 화면에 내 응용 프로그램에서 분석하고 보여 주면 보인다으로 볼? 나는 사전 파일을 파싱하는 데 문제가 있다고 가정한다. 올바르게 구문 분석하는 것보다?

+1

UTF-16? – aroth

+0

단어 필사 텍스트는 다른 텍스트와 어떻게 다른가요? – SLaks

+0

제발 내 자세한 업데이트를 참조하십시오. 덕분에 – yas375

답변

1

UTF-8 (소형 및 하위 호환)

+0

제발 내 자세한 업데이트를 참조하십시오. 덕분에 – yas375

+1

그 파일은 XML 헤더에 명시 적으로 UTF-8입니다. 당신의 스크린 샷에서, 화가에 대한 데이터는 틀리게 보입니다, 나는 그것이 그림 (peɪntə)과 일치하기를 기대합니다. 나는 당신이 거기에 결합 구별자를 가지고 있다고 생각합니다. –

+0

네, 맞습니다. 우리는 StarDict 응용 프로그램에서이 파일을 열려고하는데이 단어에 대한 필사본이 좋습니다. 나는 json을 사용하여 거기에서 복사 파일을 복사 한 것보다 iPhone 파일에서 파싱하고 올바르게 표시합니다. 나는 루비 파싱 스크립트를 더 깊이 파고들 것이다. 응답 해 주셔서 감사합니다! – yas375

관련 문제