2014-05-09 2 views
0

내부 세부 정보를 모두 얻으려면이 PDF 시리즈를 준비해야합니다. 이미 iTextsharp를 사용하여 일부 텍스트 세부 정보를 얻을 수 있지만 문제는 일부 PDF에는 이미지가 있고 이미지에는 세부 정보가 포함되어 있습니다.PDF 내부 세부 정보보기 이미지

그래서 이미지와 그 내부 세부 정보를 얻을 수 있습니까? 아래 샘플 이미지는 "머리 눈", "몸 사각형"및 "바닥 글 사각형"이라는 단어를 얻고 싶습니다. 나는 '드로잉'이 필요하지 않습니다. 이미지 안에 단어/s가 있어야합니다.

내 .Net C# 응용 프로그램에서 사용할 수있는 API/라이브러리가 있다면 좋을 것입니다. 감사! 당신이 밖으로 읽으려는 텍스트가 이미지 또는 혼합에있는 경우 Image

+0

해당 이미지의 비트 맵 이미지를 읽고 해당 이미지의 쓰기 부분입니까? 이 경우 iTextSharp를 사용하여 추출 할 수있는 이미지에 OCR을 적용해야합니다. 그렇지 않으면 iTextSharp 텍스트 추출 기능을 사용하여 성공해야합니다. – mkl

답변

0

, 해당 이미지의 부분에서 텍스트를 읽기 (이미지 PDF 페이지를 변환) PDF를 래스터 화하고 Tesseract를 사용하는 Ghostscript를 사용할 수 있습니다 . 당신이 .NET (C#을)를 통해이 작업을 수행 할 수 있기 때문에

, 여기에서 두 구성 요소에 대한 .NET 래퍼를 얻을 수 있습니다 :

Ghostscript.NET : http://ghostscriptnet.codeplex.com

정팔 포체 - OCR을 .net :https://code.google.com/p/tesseractdotnet/

관련 문제