2011-02-02 3 views
2

특정 여백, 열, 텍스트가 동일한 너비의 다른 두 가지 열과 다른 다른 스타일 유효성 검사 규칙으로 구분되어 있는지 확인하려면 pdf 파일 소스 (가급적이면 PHP를 사용)를 통해 확인해야합니다. 파일이 웹 사이트에 업로드되고 업로드 될 때 유효성 검사 메시지는 파일이 유효한지 여부를 사용자에게 보여줘야합니다. 링크에서 PHP - PDF 파일 스타일 유효성 검사기

아래의 규칙 중 일부는 파일이 준수해야하는 다음과 같다 http://ifac.papercept.net/conferences/support/page.php

당신은이 작업을 수행 할 수있는 방법에 대한 조언을 주시겠습니까? 그러한 신청을 할 수 있습니까? 나는 이미 웹 사이트를 가지고 있으며, 나는 단지 pdf 유효성 검사기를 구현할 필요가있다.

답변

0

나는 그런 과업을 건네면서 가난한 비참한 존재를 웃기 만하지만, 왜 당신이 원하는 것이 왜 불가능한지를 설명하게합니다.

PDF는 여백과 열 및 단락을 정의하지 않습니다. "이 좌표에서이 문자들을 그려야한다"는 것이 더 중요합니다. Transformation matrices, and color spaces and clipping regions, oh my!

특정 페이지에서 모든 텍스트 그리기 명령의 위치 (경계 상자)를 결정할 수있는 PDF 라이브러리가 있습니다. 이 정보를 바탕으로 모든 레이아웃 요구 사항을 충족하는지 확인해야합니다.

여백은 그리 어렵지 않을 것입니다. (모든 텍스트 주위에 테두리 상자를 만들고 그 상자가 여백 안에 있는지 확인하십시오.)하지만 열은 상당히 어려워 질 것입니다.

(some text from column one   some text from column two) Tj 

(BBOX 분석에 친화적 완벽하게 합법적하지만 없음) 그런 일에 발표, 당신이해야 할 것 : 사람의 PDF 생성 프로그램이 하나에 두 컬럼에 그립니다 불가능할 경우 명령 "일부 텍스트를 그릴" 텍스트 상자를 포함하는 공백을 기반으로 텍스트 상자를 바꿉니다.

무엇보다도 엄청난 고통을주는 프로세스와 약속 할 수없는 프로세스는 오탐 (false positive)과 위음성 (false negative) 모두 100 % 정확합니다.

아니요.
재미 있습니다.

해당 수준의 텍스트 정보를 제공하는 라이브러리는 일반적으로 주어진 텍스트 덩어리가 사용하는 글꼴, 크기 및 색상을 알려줍니다.

PHP 용 라이브러리가 있습니까? 나는 모른다. iText (Java 또는 C#, AGPL 또는 $)는 Adobe의 ($$) 라이브러리처럼 텍스트 범위를 결정할 수 있습니다. 나는 다른 사람들이있을 것이라고 확신한다.

나는 강하게 "모든 사람이 [다른 형식]으로 제출해야합니다"(이 가이드 라인을 적용 "사람들이 PDF 파일을보고"와 같은 몇 가지 다른 방법을 찾아 추천, 또는.

+0

은 지옥, 심지어 텍스트 아무튼 ' 텍스트 일 ​​필요는 없지만 PDF 컨테이너에 들어있는 .jpg 일 수 있습니다. PDF를 이미지로 변환하고 기본 오케스트라를 사용하는 것이 효과적 일 수 있습니다. "충분한 여백이 있습니까? 거기에 하얀 줄이 가운데에 "등등 ... –

+0

그리고 그것은 라인 아트가 될 수 있습니다. 네. 일부 미친 괴물도 래스터 이미지 대신 여러 가지 색깔의 직사각형을 그릴 수 있습니다. 그리고 나는 심지어 인코딩을하지도 않았다. –