2011-02-02 3 views

답변

2

왜 이렇게하고 싶습니까? 카타카나는 다른 언어에서 빌린 단어에는 전통적으로 사용되고 히라가나는 일본어로 사용됩니다. 일본어 텍스트를 하나의 형식 또는 다른 형식으로 정규화하면 실제로 읽는 것을 방해 할 수 있습니다 (적어도 정규식을 가져서 컨텍스트를 잃어 버리기 때문에 더 어려울 것입니다). JCONV

+1

가나 표준화에는 많은 용도가 있습니다. 전체 텍스트 검색을 구현하는 것이 가장 먼저 떠오르게됩니다. 그렇다면 모든 종류의 언어 응용 프로그램도 있습니다. – GolDDranks

+0

은 일부 python3 호환 제품을 사용할 수 있습니다. – Zuoanqh

1

당신은 str.translate를 사용하여 매우 빠르게 수행 할 작업을 할 수있는 :

그러나 귀하의 질문에 대답

이 당신의 묻는 무엇을 할 것으로 보인다.

그러나 왜 그렇게하고 싶은지 쉽게 알 수 없습니다.

라틴어 기반 알파벳으로 작성된 언어로 정규화를 수행하는 것은 결과가 ASCII가되도록 lowercasing, 공백을 정규화, 악센트 등을 제거하는 것을 포함합니다. 그 일을하기위한 목적은 디스플레이가 아니라 일종의 퍼지 검색/매치/검색 시나리오에서 사용자가 입력 한 텍스트를 비교하는 것입니다. 요점은 악센트 등의 실수가 해당 언어의 원어민과도 매우 공통적이라는 점입니다.

히라가나가 일본 문자 체계에서하는 역할을 감안할 때, 히라가나 문자를 카타카나로 바꾸는 데 어떤 용도가 있을지 상상할 수 없습니다. 저를 계몽하십시오.

+0

예, 간지는 히라가나 (일본어가 아닌 경우) 또는 카타카나 (빌린 경우) 중 하나로 쉽게 변환 할 수 있습니다. 나는 이것이 포스터의 다른 질문에 기초하여 사용되는 것이 입력 된 텍스트의 일부 처리를위한 것이라는 것을 추측한다. 입력 된 텍스트에 대해서만 한 세트의 처리를 갖는 경우에만 정규화가 의미가있을 수있다. – diverscuba23

+0

@diverscuba : "다른 질문"== 스레딩과 서브 프로세스에 관한 것 하나 ?? –

+0

& diverscuba23. 감사. 스크립트의 다른 역할을 복원하려고합니다. 일본어의 OCR 기술은 유럽 언어의 OCR보다 정확하지 않습니다. 유럽의 정확도를 + 99.5 %까지 높이는 기술을 개발했습니다. 우리는 "오직"85 %에서 97 %로 일본어를 향상시킵니다. 원래 일본어 OCR 출력은 히라가나와 카타카나 문자를 같은 단어로 "유사하게"섞습니다. 우리의 수정 기술은 이러한 기술을 놓치고 있습니다. 나는 a) 우리의 수정 전에 하나의 스크립트로 모든 텍스트를 정규화하거나 b) 혼합 된 문자를 수리하고 싶다. 어느 쪽이든, 나는 개종자가 필요하다. 나는 이것들을 시도 할 것이다. 감사 – tahoar

관련 문제