2011-06-11 3 views
2

pdf 보고서가 텍스트 기반인지 비트 맵 기반이 아닌 일부 이미지가 포함되어 있는지 확인해야합니다. 필자는 텍스트를 추출 할 필요가 없으며 텍스트 기반인지 확인하기 위해 텍스트를 추출 할 필요가 없습니다.pdf가 ITextSharp를 사용하여 텍스트 기반인지 확인하는 방법은 무엇입니까?

ITextSharp 라이브러리를 사용하여 이러한 확인을 수행하는 방법이 있습니까? 텍스트 드로잉 충분히 쉽게 명령을 사전에

감사합니다,

스테판

+0

"텍스트 기반"이란 무엇을 의미합니까? 적어도 하나의 추출 가능 문자가 있습니까? –

+1

그래, 나는 특히 비트 맵 텍스트와 "진짜"텍스트가 공존 할 수 있기 때문에 둘을 묘사하는 선이 반드시 날카롭게 될지 확신하지 못한다. PDF에 전체 페이지 이미지가 뒤 따르는 한 페이지의 텍스트가 포함 된 경우 그 수는 무엇으로 계산됩니까? 이미지가 실제로 사진 인 경우 어떻게해야합니까? – duskwuff

+0

수락 테스트를위한 코드가 필요합니다. pdf에 어떤 텍스트/데이터가 포함되어야하는지 압니다. 작업은 데이터에서 생성 된 PDF 보고서가 "텍스트 기반"인지 확인하는 것입니다. 즉, 실제로 PDF 형식의 비트 맵이 아닌 형식화 된 텍스트가 포함되어 있음을 의미합니다. – stefando

답변

1

당신은 볼 수 있습니다. 당신의 부분에 대한 최소한의 노력은 텍스트를 추출하고 거기에 무엇이 있는지 확인하는 것입니다. 이상적으로는 포함해야하는 텍스트의 일부를 알고 검색 할 수 있습니다. 한 문장이나 문구만으로도 이런 종류의 테스트가 가능합니다.

iText를 사용한 텍스트 추출은 요즘 매우 쉽습니다. SO와 웹 주위에 떠있는 예제가 많이 있습니다.

+0

나는 이것이 좀 오래되었다는 것을 알고 있지만 작은 코드 예제를 게시 할 수있는 기회가 있습니까? 나는 iTextSharp에 완전히 익숙하지 않으며 어떤 객체로 시작할 지조차 모른다. 나는 대답에 대해 찬성을 표한다. – flipdoubt

관련 문제