내가 작성한 최근 웹 응용 프로그램에서 사용자 중 한 명이 완전히 일본어로 작성하려고했을 때 즐겁게 놀랐습니다. 그러나이 텍스트는 이상하고 어색하게 포장되었습니다. 분명히 브라우저는 일본어 텍스트를 매우 잘 감싸는 것에 대처하지 않을 것입니다. 아마 각 문자가 전체 단어를 형성 할 때 공간이 거의 없기 때문일 것입니다. 그러나 일부 단어가 여러 문자로 구성되어 있기 때문에 실제로 만드는 것이 안전한 가정은 아니며 일부 문자 그룹을 여러 줄로 구분하는 것은 안전하지 않습니다.일본어에 대한 단어 랩 알고리즘
인터넷 검색을 사용하면 문제를 더 잘 이해하지 못했습니다. 마치 깨지지 않는 패턴의 사전이 필요하고 다른 모든 곳이 깨지기 쉽다고 가정하는 것처럼 보입니다. 그러나 나는 나의 검색에서 이해할 수있는 모든 단어를 실제로 알기 위해 일본어에 대해 충분히 알지 못하기 때문에 두려움이있다.
어떻게이 문제에 접근합니까? 이미 만족스러운 방식으로 처리하고있는 라이브러리 나 알고리즘이 있습니까?
정확한 복제 http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton
나는 당신이 할 수 없다고 생각합니다. 단어를 이해하지 않고 일본어를 감쌀 수 있으므로 최소한 일본어로 필요한 것은 무엇입니까? 나는 그것이 얼마나 어려울 지 또는 어떤 모호함이있을 수 있는지를 말할 수 없었다. (정확한 단어가 문맥에 의존한다는 것은 의미심장 한 복잡성을 의미한다.) – cletus
은 실제로 중복되지 않습니다.이 질문은 색인 생성을 위해 텍스트를 단어로 분리하는 것에 관한 것입니다. 그것은 어려운 문제입니다. 다행스럽게도 레이아웃 배치 할 때 크게 무시할 수 있습니다. –