2010-01-19 7 views
6

내가 작성한 최근 웹 응용 프로그램에서 사용자 중 한 명이 완전히 일본어로 작성하려고했을 때 즐겁게 놀랐습니다. 그러나이 텍스트는 이상하고 어색하게 포장되었습니다. 분명히 브라우저는 일본어 텍스트를 매우 잘 감싸는 것에 대처하지 않을 것입니다. 아마 각 문자가 전체 단어를 형성 할 때 공간이 거의 없기 때문일 것입니다. 그러나 일부 단어가 여러 문자로 구성되어 있기 때문에 실제로 만드는 것이 안전한 가정은 아니며 일부 문자 그룹을 여러 줄로 구분하는 것은 안전하지 않습니다.일본어에 대한 단어 랩 알고리즘

인터넷 검색을 사용하면 문제를 더 잘 이해하지 못했습니다. 마치 깨지지 않는 패턴의 사전이 필요하고 다른 모든 곳이 깨지기 쉽다고 가정하는 것처럼 보입니다. 그러나 나는 나의 검색에서 이해할 수있는 모든 단어를 실제로 알기 위해 일본어에 대해 충분히 알지 못하기 때문에 두려움이있다.

어떻게이 문제에 접근합니까? 이미 만족스러운 방식으로 처리하고있는 라이브러리 나 알고리즘이 있습니까?

+1

정확한 복제 http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton

+1

나는 당신이 할 수 없다고 생각합니다. 단어를 이해하지 않고 일본어를 감쌀 수 있으므로 최소한 일본어로 필요한 것은 무엇입니까? 나는 그것이 얼마나 어려울 지 또는 어떤 모호함이있을 수 있는지를 말할 수 없었다. (정확한 단어가 문맥에 의존한다는 것은 의미심장 한 복잡성을 의미한다.) – cletus

+2

은 실제로 중복되지 않습니다.이 질문은 색인 생성을 위해 텍스트를 단어로 분리하는 것에 관한 것입니다. 그것은 어려운 문제입니다. 다행스럽게도 레이아웃 배치 할 때 크게 무시할 수 있습니다. –

답변

12

일본어 단어 줄 바꿈 규칙은 kinsoku shori이며 놀라 울 정도로 간단합니다. 그들은 실제로 주로 구두점 문자에 관심이 있고 단어를 전혀 깨지지 않게하려고 노력하지 않습니다.

나는 일본어 소설로 확인했는데 실제로 음절 가나 대본의 단어와 여러 개의 중국어 표의 문자로 구성된 단어는 모두 중간 단어로 포장되어 있습니다.

+0

나는 방금 Yahoo Japan에서 그걸 시도했다. Firefox가 kinsoku shori를 구현 한 것 같습니다. 닫는 괄호로 시작하는 줄을 가져올 수 없습니다 (그게 전부입니다). Safari를 사용하면 할 수 있습니다. – Thilo

+0

@Michael의 의견 양식에 따르면, 일본어의 경우 포장 규칙이 다르다는 것을 발견했습니다. html을 PDF로 렌더링하는 동안 일본어 컨텐츠를 래핑하는 문제에 직면하고 있기 때문에 CSS 또는 다른 방법을 사용하여 일본어를 감쌀 수있는 방법이 있습니까? – lambypie

+0

명확히하기 위해, @Michael은 줄 바꿈이 자유 다라고 말하는 것이 아닙니다. 줄 바꿈을 수행하는 방법과 줄 바꿈을 허용하지 않는 경우에 대한 특정 규칙이 있습니다. 그가 연결하는 Wikipedia 기사는 매우 유용합니다. – mercurytw