2011-08-07 4 views
0

저는 유니 코드 인 PHP의 Ms Word Doc를 읽으려고합니다. 히브리어 나 아랍어와 같은 것들이 있습니다. 하지만 바이너리로 읽고 일부 비 장면 문자로 바뀝니다. 내가 몇 가지 샘플 코드를 봤지만 그 중 제대로 작동하지, 당신은 아랍어 및 히브리어 같은 유니 코드 문서에 어떤 경험이 있습니까? thanksPHP는 "유니 코드"MS 워드 문서를 읽습니다

+0

Word 문서를 Word 문서로 구문 분석 했습니까? 아랍어 유니 코드 블록은 다음에서 설명합니다. http://en.wikipedia.org/wiki/Arabic_(Unicode_block) 괜찮은 유니 코드 구현을 사용하는 경우 아랍어 또는 히브리어를 처리하는 것이 다른 문자 범위와 다른 이유는 알 수 없습니다. . –

+0

처음부터 자신 만의 MS Word 구현을 작성 했습니까 ?? –

+0

@Y sangkok, 네, 저는 그것을 파싱했으나 저점에 갈 수 없었습니다. – ePezhman

답변

1

PHP의 단점 중 하나는 (적어도 최근까지는) 유니 코드를 모르는 것입니다. 일반적으로 읽는 문서가 유니 코드이고 문서가 웹 브라우저에서 끝나기를 바라는 사실을 무시함으로써 유니 코드를 처리하는 방법을 알게됩니다. PHP는 아무 것도 파괴하지 않으며 단지 신경 쓰지 않습니다.

당신이하려는 일에 따라 PHP에 유니 코드 처리를 향상시킬 수있는 몇 가지 추가 사항이 있습니다. 그 중 다중 바이트 문자열을 처리하는 mb_ 문자열 함수가 있습니다.

또한 Word 문서에서 텍스트가 인코딩 된 방법을 알아야합니다. 유니 코드는 많은 형식을 지원하며 가장 널리 사용되는 가장 컴팩트 한 형식은 UTF-8입니다. 그러나 UTF-16UTF-32도 있습니다.

+0

* 대부분의 컴팩트 *는 내용에 따라 크게 달라 지므로 UTF-8이 가장 컴팩트하다는 일반적인 진리는 아닙니다. 대부분 ASCII 인 텍스트에만 해당됩니다. 그러나 UTF-32는 항상 작습니다. – Joey

+0

@Fabian이 대답 해 주셔서 감사합니다. 바이너리를 utf-8로 변환 할 수 있다고 생각합니까? – ePezhman

관련 문제