2014-07-25 3 views
1

Google 드라이브에 파일 삽입을 OCR하려고합니다. 삽입되는 이미지에 한자가 포함되어 있습니다. OCR 기능을 사용하지만 텍스트를 추출하지 않으면 이미지가 Google 문서로 변환됩니다.OCR의 파일 삽입이있는 한자

문서에 따르면 ISO 639-1 코드의 값으로 "ocrLanguage"를 사용해야합니다. 그러나 어떤 언어가 지원되는지에 대한 언급이 없습니다.

API가 잘못된 값으로 거부하는 "zh"를 사용하여 시도했습니다.

이전 Google-Docs API 문서에서 찾은 "zh-Hans"를 사용해 보았습니다. 이것은 오류를 반환하지는 않지만 OCR이 발생하지 않습니다.

"OCR"을 사용하려고했지만 OCR도 사용하지 않았습니다.

문서에 따르면이 매개 변수는 힌트 일 뿐이므로 OCR 엔진이 언어를 해결할 수 있으면 재정의됩니다.

그래서 제 질문은 다음과 같습니다

  1. 사람이 성공적으로 중국어 문자가 포함 된 이미지를 OCR 했습니까?
  2. 지원되는 언어 목록을 갖고있는 사람이 있습니까?

참고 : 브라우저에서 이미지를 업로드 할 때 OCR 언어 드롭 다운에 중국어 (간체 및 번체)가 포함되어 있으며이 방법을 사용하면 텍스트를 성공적으로 추출 할 수 있습니다.

답변

0
  1. 약 2 년 전에 작성된 중국어 OCR 용 스크립트가 있습니다.

    $ createdFile = $ 서비스 -> 파일 -> ($ 파일, 배열 ( '데이터'=> $ 데이터, 'MIME 타입'삽입 => ': 그것은이 같은 코드 (PHP 라이브러리를 사용), 완벽하게 작동'ocrLanguage'=> 'zh-Hans', 'convert'=> 참, ));'ocr'=>

"zh-Hans"에서는 작동하지 않지만 "en"언어에서는 정상적으로 작동합니다. Google API의 대기 응답에 약 10-15 초가 걸리므로 Google에서 OCR을 완료하려고 시도하지만 Google API 측면에서 문제가있는 것으로 보입니다. 중국에서 zh - 한스 때문이다

  1. 지원되는 언어에서 zh-Hant로 위튼 여기 https://developers.google.com/google-apps/documents-list/을 (하지만 오래된 문서이다). 선택 웹 인터페이스 OCR의 HTML에서 언어는 동일합니다 :

    중국어 (간체) 중국어 (번체) 여기 권장

당신은이 질문에 "구글 드라이브 - SDK를"태그를 추가 할 수 https://developers.google.com/drive/support

+0

태그에 대한 정보 주셔서 감사합니다. 내가 몇 가지 새로운 이미지와 함께 몇 가지 테스트를 다시 실행 한 ocrLanguage = EN 잘 작동 ocrLanguage = FR은 ocrLanguage =에서 zh - 한스는 Google 문서를 작성하고 이미지를 임베드 아니라 텍스트 추출 ocrLanguage =에서 zh-Hant 발생 좋은 작품 { "오류": [ { "도메인": "글로벌", "이유": "무효", "메시지"API는 다음과 같은 오류를 '{ "오류"를 반환하도록합니다 " 잘못된 값 ", "locationType ":"매개 변수 ", "위치 ":"ocrLanguage " } ],"} – user3876103

+0

예, zh-Hant로 인해 API 오류가 발생합니다. zh-Hant는 API에서 지원되지 않습니다 (API 라이브러리는 약 2 년 전에 설치되었습니다.). , 그리고 지금 구글은 일반 PHP 라이브러리가 없으며 실제 문서가없는 베타 버전 만 있습니다. 그래서 Google은 드라이브 API 라이브러리를 개발할 자원이 없습니다. 나중에 이러한 문제를 해결할 수도 있습니다. – Alex