2011-04-06 3 views
83

유니 코드 문자, 코드 포인트, BMP (Basic Multilingual Plane) 외부의 범위가 지금까지 가장 일반적인 경험 이었습니까? 이것들은 UTF-8에서 4 바이트 또는 UTF-16에서 서로 게이트를 요구하는 것들입니다.실제 사용시 가장 일반적인 비 BMP 유니 코드 문자는 무엇입니까?

나는 중국어와 일본어 문자가 이름에 사용되었지만 가장 널리 사용되는 CJK 멀티 바이트 문자 세트에 포함되지 않았을 것으로 예상했지만 프로젝트에서 나는 대부분 위크 타리 어로 작업했다. Gothic alphabet은 지금까지 훨씬 더 일반적입니다.

UPDATE

나는 비 BMP 문자에 대한 전체 위키 백과를 검색하는 소프트웨어 도구의 몇 가지를 작성, 심지어 일본 위키 백과 고딕 알파벳에서 가장 일반적이다 놀랍게도 발견했습니다. 이것은 중국 위키피디아에서도 마찬가지지만 "", ""및 ""을 포함하여 50 번이나 70 번까지 많은 한자를 사용하고 있습니다.

+1

@hippietrail : 현상금의 가치가있는 약간의 분석을 게시 할 수 있다면 ;-) –

+1

@ JoachimSauer : 슬프게도 그 작업은 모두 슬프게도 호주의 저장고에있는 반면, 전 세계 곳곳으로 뻗어 나가고 있습니다. 중고 평판 (-; – hippietrail

+2

이제는 내가 읽은 질문을 게시하지 않는 가장 좋은 이유 일 것입니다. 재미있어! ;-) –

답변

70

이모티콘 지금은 가장 일반적인 비입니다 -BMP 문자가 훨씬 더 많습니다. U-1F602 FACE WITH JOY는 Twitter의 공개 스트림에서 가장 많이 사용되는 문자입니다.

+9

Upvoted,하지만 {{citation needed}}와 함께이 답변에 태그를 달았 으면 좋겠습니다. – Quuxplusone

+2

트위터에 사용되는 비 BMP 이모티콘은 http://www.emojitracker.com/ –

+2

에 따르면 실제로 전 세계적으로 제한된 유니 코드 범위를 치료하는 데 사용됩니다. –

8

나를 위해, Mathematical Alphanumeric Symbols은 Cambria Math와 같은 OpenType 글꼴로 수학 조판에 사용됩니다.

+3

또는 강제로 "das komputermachine"을 블랙 레터로 렌더링하려면 :)! ! ! ' – Jasen

48

우수 질문!

대답은 수학 문자입니다. 지난 12 월 필자는 전체 PubMed Open Access 코퍼스 (PubMed Open Access corpus)에 대한 스캔을 수행하여 그 안에있는 아스트랄 캐릭터에 대한 수치를 제시했습니다.

아래 그림의 첫 번째 숫자는 전체 코퍼스에서 발견 된 각 코드 포인트의 사본 수입니다. 첫째,하지만, 당신에게 상대적인 주파수에 대한 개념을 제공하는, 여기에 신체의 상위 10 트랜스 - ASCII 코드 포인트입니다 : 이제 트랜스 - BMP 코드 포인트 여기에

2663710 U+002013 ‹–› GC=Pd EN DASH 
1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE 
1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN 
    784139 U+002212 ‹−› GC=Sm MINUS SIGN 
    602377 U+002003 ‹ › GC=Zs EM SPACE 
    528576 U+0003BC ‹μ› GC=Ll GREEK SMALL LETTER MU 
    519669 U+0003B2 ‹β› GC=Ll GREEK SMALL LETTER BETA 
    512312 U+0003B1 ‹α› GC=Ll GREEK SMALL LETTER ALPHA 
    491842 U+00200A ‹ › GC=Zs HAIR SPACE 
    462505 U+0000B0 ‹°› GC=So DEGREE SIGN 

하고, 분야별의 순서로 주파수 : 정말 소원 나는 그들이 U + 100002 할 때 사용하고 있었는지 알고

 544 U+01D49E ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL C 
    450 U+01D4AF ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL T 
    385 U+01D4AE ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL S 
    292 U+01D49F ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL D 
    285 U+01D4B3 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL X 
    262 U+01D4A9 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL N 
    258 U+01D4AB ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL P 
    254 U+01D4A2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL G 
    185 U+01D49C ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL A 
    178 U+01D53C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL E 
    137 U+01D4AA ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL O 
     56 U+01D4A5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL J 
     48 U+01D4A6 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL K 
     44 U+01D4B1 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL V 
     43 U+01D4B2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL W 
     42 U+01D4B4 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Y 
     41 U+01D4B5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Z 
     35 U+01D4B0 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL U 
     30 U+01D4AC ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Q 
     23 U+01D54A ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL S 
     21 U+01D539 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL B 
     19 U+01D5A7 ‹› GC=Lu MATHEMATICAL SANS-SERIF CAPITAL H 
     18 U+01D517 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL T 
     15 U+01D4C3 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL N 
     14 U+01D535 ‹› GC=Ll MATHEMATICAL FRAKTUR SMALL X 
     13 U+01D4BF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL J 
     11 U+01D540 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL I 
     9 U+01D465 ‹› GC=Ll MATHEMATICAL ITALIC SMALL X 
     9 U+01D4CE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Y 
     9 U+01D538 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL A 
     8 U+01D4C2 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL M 
     8 U+01D54D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL V 
     7 U+01D4B6 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL A 
     7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I 
     7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W 
     7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S 
     7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I 
     7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W 
     7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S 
     4 U+01D4CF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Z 
     4 U+01D53B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL D 
     4 U+01D54B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL T 
     3 U+01D4BB ‹› GC=Ll MATHEMATICAL SCRIPT SMALL F 
     3 U+01D4CA ‹› GC=Ll MATHEMATICAL SCRIPT SMALL U 
     3 U+01D507 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL D 
     3 U+01D542 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL K 
     3 U+01D546 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL O 
     2 U+01D4BD ‹› GC=Ll MATHEMATICAL SCRIPT SMALL H 
     2 U+01D4C5 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL P 
     2 U+01D505 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL B 
     2 U+01D50E ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL K 
     2 U+01D541 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL J 
     2 U+01D543 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL L 
     2 U+100002 ‹› GC=Co <private use character> 
     1 U+01D4B8 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL C 
     1 U+01D4C1 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL L 
     1 U+01D53D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL F 
     1 U+01D53E ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL G 
     1 U+01D54C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL U 
     1 U+01D6A4 ‹› GC=Ll MATHEMATICAL ITALIC SMALL DOTLESS I 
     1 U+01D7D9 ‹› GC=Nd MATHEMATICAL DOUBLE-STRUCK DIGIT ONE 

. 그 경우에는 :(

브라우저에 표시되지 않습니다, 당신은 George Douros’s Symbola font를 설치해야합니다. 또한, 너무 거기에 모든 재미 유니 코드 6.0.0 코드 포인트를 가지고있다.

+0

당신은 당신의 완전한 statustics를 공유 할 수있는 기회가 있습니까? 이 질문을보십시오 : http://stackoverflow.com/questions/22184624/unicode-character-usage-statistics – lexicore

+0

죄송합니다. 'trans-ASCII'와 'trans-BMP'의 의미는 무엇입니까? 트랜스는 그룹의 '내부'를 의미합니까? 이전에는이 ​​표현을 본 적이 없었습니다. – kevinarpe

+0

이 문맥에서는 _beyond_, _outside_, (예. [Dictonary.com] (http://www.dictionary.com/browse/trans-)을 참조하십시오 : '1 : 라틴어에서 loanwords에서 발생하는 접두어 (초월; transfix); 이 모델에서 "가로 질러", "넘어", "통과", "완전히 변화", "가로 질러"와 같은 의미로 모든 원산지 요소와 함께 사용됩니다. – SlySven

관련 문제