유니 코드 문자, 코드 포인트, BMP (Basic Multilingual Plane) 외부의 범위가 지금까지 가장 일반적인 경험 이었습니까? 이것들은 UTF-8에서 4 바이트 또는 UTF-16에서 서로 게이트를 요구하는 것들입니다.실제 사용시 가장 일반적인 비 BMP 유니 코드 문자는 무엇입니까?
나는 중국어와 일본어 문자가 이름에 사용되었지만 가장 널리 사용되는 CJK 멀티 바이트 문자 세트에 포함되지 않았을 것으로 예상했지만 프로젝트에서 나는 대부분 위크 타리 어로 작업했다. Gothic alphabet은 지금까지 훨씬 더 일반적입니다.
UPDATE
나는 비 BMP 문자에 대한 전체 위키 백과를 검색하는 소프트웨어 도구의 몇 가지를 작성, 심지어 일본 위키 백과 고딕 알파벳에서 가장 일반적이다 놀랍게도 발견했습니다. 이것은 중국 위키피디아에서도 마찬가지지만 "", ""및 ""을 포함하여 50 번이나 70 번까지 많은 한자를 사용하고 있습니다.
@hippietrail : 현상금의 가치가있는 약간의 분석을 게시 할 수 있다면 ;-) –
@ JoachimSauer : 슬프게도 그 작업은 모두 슬프게도 호주의 저장고에있는 반면, 전 세계 곳곳으로 뻗어 나가고 있습니다. 중고 평판 (-; – hippietrail
이제는 내가 읽은 질문을 게시하지 않는 가장 좋은 이유 일 것입니다. 재미있어! ;-) –