2016-09-26 1 views
0

ASCII 및 기본 문자를 포함한 다양한 언어를 포함하는 파일이 있습니다.문자 인코딩 설정 Cygwin에서 복수 문자 집합 읽기

'국제화'에 대한 cygwin 페이지와 지원되는 문자 집합 목록 (아래)을 읽었습니다. 영어, 아랍어, 중국어, 일본어 등 모든 언어를 처리 할 수있게하고 싶습니다. 또한, 나는 이상한 문자에 대한 설명서를 읽고 : https://cygwin.com/faq-nochunks.html#faq.using.weirdchars

Charset    Codepage 
------------------- ------------------------------------------- 
ASCII     20127 (US_ASCII) 

CP437     437 (OEM United States) 
CP720     720 (DOS Arabic) 
CP737     737 (OEM Greek) 
CP775     775 (OEM Baltic) 
CP850     850 (OEM Latin 1, Western European) 
CP852     852 (OEM Latin 2, Central European) 
CP855     855 (OEM Cyrillic) 
CP857     857 (OEM Turkish) 
CP858     858 (OEM Latin 1 + Euro Symbol) 
CP862     862 (OEM Hebrew) 
CP866     866 (OEM Russian) 
CP874     874 (ANSI/OEM Thai) 
CP932   932 (Shift_JIS, not exactly identical to SJIS) 
CP1125     1125 (OEM Ukraine) 
CP1250     1250 (ANSI Central European) 
CP1251     1251 (ANSI Cyrillic) 
CP1252     1252 (ANSI Latin 1, Western European) 
CP1253     1253 (ANSI Greek) 
CP1254     1254 (ANSI Turkish) 
CP1255     1255 (ANSI Hebrew) 
CP1256     1256 (ANSI Arabic) 
CP1257     1257 (ANSI Baltic) 
CP1258     1258 (ANSI/OEM Vietnamese) 

ISO-8859-1   28591 (ISO-8859-1) 
ISO-8859-2   28592 (ISO-8859-2) 
ISO-8859-3   28593 (ISO-8859-3) 
ISO-8859-4   28594 (ISO-8859-4) 
ISO-8859-5   28595 (ISO-8859-5) 
ISO-8859-6   28596 (ISO-8859-6) 
ISO-8859-7   28597 (ISO-8859-7) 
ISO-8859-8   28598 (ISO-8859-8) 
ISO-8859-9   28599 (ISO-8859-9) 
ISO-8859-10    - (not available) 
ISO-8859-11    - (not available) 
ISO-8859-13   28603 (ISO-8859-13) 
ISO-8859-14    - (not available) 
ISO-8859-15   28605 (ISO-8859-15) 
ISO-8859-16    - (not available) 

Big5     950 (ANSI/OEM Traditional Chinese) 
EUCCN or euc-CN   936 (ANSI/OEM Simplified Chinese) 
EUCJP or euc-JP  20932 (EUC Japanese) 
EUCKR or euc-KR   949 (EUC Korean) 
GB2312     936 (ANSI/OEM Simplified Chinese) 
GBK      936 (ANSI/OEM Simplified Chinese) 
GEORGIAN-PS    - (not available) 
KOI8-R    20866 (KOI8-R Russian Cyrillic) 
KOI8-U    21866 (KOI8-U Ukrainian Cyrillic) 
PT154     - (not available) 
SJIS     - (not available, almost, but not exactly CP932) 
TIS620 or TIS-620  874 (ANSI/OEM Thai) 

UTF-8 or utf8   65001 (UTF-8) 

내 주요 질문 : 그것은 Cygwin에서 쉘은 한 번에 여러 언어를 읽게 수 있습니까? 나는 이것에 관해 많은 것을 정말로 발견 할 수 없었다. 어떤 방향으로 높게 평가됩니다.

+0

은 UTF을-8을 사용 체계화한다. iconv를 사용하여 코드 페이지를 다른 코드 페이지로 변환 할 수 있습니다. 자세한 내용은'man iconv'를 참조하십시오. – matzeri

답변

0

정확히 무엇을 의미합니까?

현대 Windows (Windows 10)의 최근 Cygwin에서 Cygwin에서 모든 종류의 문자를 표시하도록 할 수 있습니다. 예를 들어

$ env LANG=ru_RU.UTF-8 cp --help 
$ env LANG=zh_CN.UTF-8 cp --help 
$ env LANG=ja_JP.UTF-8 cp --help 

은 러시아어, 중국어, 일본어 텍스트 등을 표시합니다.

그리고이 경우

출력을 후 처리를 위해 당신은 또한 여분의 iconv 단계이기는하지만, 윈도우 파워 쉘에서 작업을 수행 할 수 있습니다, 작동하지 않았다 : 기본 Cygwin에서에 의해

PS C:\cygwin\bin> .\env.exe LANG=zh_CN.UTF-8 .\cp.exe --help | .\iconv.exe -f UTF-8 -t UTF-16