2010-01-08 5 views
3

중국어 병음을 지원하는지 알고있는 사람이 있습니까? 올바른 중국어 병음을 사용하여 here 결과를 얻습니다 ("로마자 표시"링크 참조).중국어 AJAX 언어 API

감사합니다.

답변

2

Google AJAX Language API가 병음으로 변환하는 기능을 지원하는지는 모르겠지만 그렇지 않다면 실제로 사용 가능한 변환을 수행하는 것이 그리 어렵지 않습니다. (병음은 매우 손실이 있기 때문에 그 반대의 변환, 병음에서 한자로 (자), 훨씬 더 까다 롭습니다.)

는, 변환을 직접 수행 Unihan.zipUnihan database의 downloaable 혼란 스럽다을 잡아. 실제로 관심이있는 파일은 Unihan_Readings.txt입니다. 그것은 또한 당신이 신경 쓰지 않는 많은 것들이 포함되어 있으며 꽤 비효율적 인 방식으로 저장되기 때문에 큰 파일 크기에 대해 너무 걱정하지 마십시오. 관심있는 물건을 추출하여보다 효율적인 방법으로 저장해야합니다.

그것은 당신이 같은 탭으로 구분 된 라인을 확인할 수있는 것들 :

U+597D kCantonese  hou2 hou3 
U+597D kDefinition  good, excellent, fine; well 
U+597D kHangul   호 
U+597D kHanyuPinlu  hao3(6060) hao1(142) hao4(115) 
U+597D kHanyuPinyin 21028.010:hǎo,hào 
U+597D kJapaneseKun KONOMU SUKU YOI 
U+597D kJapaneseOn  KOU 
U+597D kKorean   HO 
U+597D kMandarin  HAO3 HAO4 
U+597D kTang   *xɑ̀u *xɑ̌u 
U+597D kVietnamese  háo 
U+597D kXHC1983  0445.030:hǎo 0448.030:hào 

왼쪽 열 ("U + 597D")는 유니 코드 코드 포인트이며, 중간 열은 속성 이름, 오른쪽입니다 column은 속성 값입니다. kHanyuPinyin 속성 또는 kMandarin 속성을 추출 할 수 있습니다. 기본적으로 동일한 정보를 인코딩합니다. 더 쉬운 형식으로 처리하십시오.

일부 문자 (예 : 여기에서 선택한 예와 같이)에는 여러 개의 발음이 있음을 알 수 있습니다 (예 : HAO3, HAO4, HAO4). 이것은 하나의 까다로운 비트입니다. 얼마나 정밀도를 원하는지에 따라, 나열되는 첫 번째 로마자 표기법을 사용하여 도망 갈 수 있습니다. 빈도가 감소하는 순서입니다. (실제로 이것은 kHanyuPinyin이 kMandarin과 약간 다른 장소 중 하나입니다. 실제로 주파수별로 순서가 지정된 여러 개의 발음 목록이 있습니다.)

+0

그래, 나도 이것에 대해 생각하고 있었지만 Unihan에서 데이터를 가져 오는 것은 db에 대한 또 다른 쿼리이며 긴 단어에 대한 최선의 해결책은 아닙니다. Google AJAX Language API는 Google 번역과 동일한 사전을 사용하지만, 병음뿐 아니라 번역 자체를 검색하는 방법은 무엇입니까? –

+0

이미 사용하고있는 API에서이 정보를 얻는 것이 좋을 것에 동의합니다. 이것은 "계획 B"의 더 많은 것입니다. 나는 어떤 종류의 DB를 참조하는지 모르겠다.하지만 Unihan에서 추출한 데이터는 클라이언트에 저장할 수있다. 역 매핑을 수행하는 내 사이트의 http://xenomachina.com/toys/pinyin2hanzi.html을 살펴보십시오. 그것은 전체 병음 - 한자 매핑 (Unihan.txt에서 추출한)을 가진 js 파일을 가지고 있으며 단지 50K에 불과합니다. –

+0

제안 해 주셔서 감사합니다. –

0

Google 번역에는 '표시/숨기기 로마자 표기법'이 UNIHAN에게 두 가지 이유가 있습니다. 첫째, 알려진 단어가 논리적으로 적절한 방식으로 함께 그룹화됩니다 (적어도 시도합니다). 둘째, 한자는 가능한 한 가지 이상의 발음을 가지고 있습니다. 병음 음역이 올바른지 알아내는 것은 사소한 문제가 아닙니다. 이것이 번역 엔진이하는 일입니다.

1

중국어를 중국어로 번역하여 Pinyin에게주는 API를 속일 수 있습니다. 샘플 link.