언어 감지

OCR 용으로 주로 인보이스에 tesseract을 사용하고 있습니다. 그러나 tesseract는 파일 처리를 시작하기 전에 언어를 지정해야합니다.언어 감지

미리 정의 된 기본 언어를 기반으로 ocr을 수행 할 것입니다. 그런 다음 결과 텍스트를 사용하여 사용 된 언어를 확인하고 싶습니다. 기본 언어가 아닌 경우 tesseract에서 더 나은 결과를 얻으려면 다시 처리합니다.

그러나 언어 검색 알고리즘을 어떻게 구현할 수 있습니까? 사용할 수있는 C++ 라이브러리가 있습니까?

출처

2011-11-16 Pedro

이 백서 "Natural Language Identification for OCR Applications"은 요구 사항과 유사한 식별 작업과 관련된 기술을 설명합니다.

출처

2011-11-18 02:38:25 nguyenq

라이브러리가 Java로되어 있으면 도움이되는지 확신 할 수 없습니다. 하지만 주어진 텍스트에서 약 50 개 언어를 탐지 할 수 있고 꽤 좋은 정밀도 수준을 가졌기 때문에 정말 멋있었습니다. 오픈 소스이므로 C++로 코드를 다시 작성하고 C++로만 작성해야하는 경우 오픈 소스 커뮤니티에 다시 제공 할 수 있습니다.

http://code.google.com/p/language-detection/

참고 : 그것은 분석을 위해 너치와 티카 라이브러리를 사용 여기

는 동일한에 대한 링크입니다.

출처

2012-10-09 07:11:32

내 논문 The WiLI benchmark dataset for written language identification을 읽고 lidtk을 시도해보십시오.

TL; DR : CLD-2를 시도해보십시오.

출처

2018-01-25 17:35:43