2009-10-19 9 views
4

Wikipedia에 따르면 "인쇄 된 문서를 스캔하는 것과 같이 명확한 이미징을 사용할 수있는 응용 프로그램에서는 라틴 스크립트, 타이프 텍스트의 정확한 인식이 현재 크게 문제로 간주됩니다." 그러나, 그것은 인용문을 제공하지 않습니다.OCR은 더 이상 문제가되지 않습니까?

내 질문은 : 사실입니까? 현재의 최첨단 기술은 영어 텍스트를 잘 스캔 할 수 있도록 아주 훌륭하게 만들어 졌는가?

또는 덜 주관적인 질문은 다음과 같습니다. 현대적인 OCR 시스템이 양질의 스캔을 위해 영어 텍스트를 얼마나 정확하게 인식합니까?

+2

글쎄, 위키 피 디아에서 읽으므로 사실 일 것입니다. – cletus

+2

이 프로그래밍과 어떤 관련이 있습니까? –

+7

프로그래밍 문제가 발생했기 때문에? – cletus

답변

3

충분히 높은 품질의 2 차원 비트 맵을 사각형으로 분해하여 각기 잘 동작하고 사전 지정된 글꼴 집합 중 하나 인 식별 된 라틴 문자를 포함하는 것으로 간주하면 (참조 : Omnifont), 이는 해결 된 문제입니다.

편심하지 않은 글꼴, 잡음이있는 스캔, 아시아 문자와 같은 매개 변수로 재생되기 시작합니다. 다소 번쩍 거리거나 추가 입력이 필요합니다. 많은 잘 알려진 Ominfont 시스템은 합자를 잘 처리하지 못합니다.

그리고 OCR의 주요 문제점은 출력을 이해하는 것입니다. 문제가 해결 되었다면 Google 도서는 완벽한 결과를 제공 할 것입니다.

5

저는 이것이 실제로 해결 된 문제라고 생각합니다. 그냥 문서에서는 스크립트를 타이핑하고 명확해야한다는 스트레스를하지

물론 등 C#, C++, Java에 대한 OCR 기술 기사의 과다에 모습을 가지고있다. 이것은 인식을 비교적 사소한 작업으로 만든 반면 OCR 스캔 된 페이지 (노이즈) 또는 필기 (확산)가 필요한 경우 제대로 조정할 것이 더 많으므로 더 까다로워 질 수 있습니다.

관련 문제