나는 그런 과업을 건네면서 가난한 비참한 존재를 웃기 만하지만, 왜 당신이 원하는 것이 왜 불가능한지를 설명하게합니다.
PDF는 여백과 열 및 단락을 정의하지 않습니다. "이 좌표에서이 문자들을 그려야한다"는 것이 더 중요합니다. Transformation matrices, and color spaces and clipping regions, oh my!
특정 페이지에서 모든 텍스트 그리기 명령의 위치 (경계 상자)를 결정할 수있는 PDF 라이브러리가 있습니다. 이 정보를 바탕으로 모든 레이아웃 요구 사항을 충족하는지 확인해야합니다.
여백은 그리 어렵지 않을 것입니다. (모든 텍스트 주위에 테두리 상자를 만들고 그 상자가 여백 안에 있는지 확인하십시오.)하지만 열은 상당히 어려워 질 것입니다.
이
(some text from column one some text from column two) Tj
(BBOX 분석에 친화적 완벽하게 합법적하지만 없음) 그런 일에 발표, 당신이해야 할 것 : 사람의 PDF 생성 프로그램이 하나에 두 컬럼에 그립니다 불가능할 경우 명령 "일부 텍스트를 그릴" 텍스트 상자를 포함하는 공백을 기반으로 텍스트 상자를 바꿉니다.
무엇보다도 엄청난 고통을주는 프로세스와 약속 할 수없는 프로세스는 오탐 (false positive)과 위음성 (false negative) 모두 100 % 정확합니다.
아니요.
재미 있습니다.
해당 수준의 텍스트 정보를 제공하는 라이브러리는 일반적으로 주어진 텍스트 덩어리가 사용하는 글꼴, 크기 및 색상을 알려줍니다.
PHP 용 라이브러리가 있습니까? 나는 모른다. iText (Java 또는 C#, AGPL 또는 $)는 Adobe의 ($$) 라이브러리처럼 텍스트 범위를 결정할 수 있습니다. 나는 다른 사람들이있을 것이라고 확신한다.
나는 강하게 "모든 사람이 [다른 형식]으로 제출해야합니다"(이 가이드 라인을 적용 "사람들이 PDF 파일을보고"와 같은 몇 가지 다른 방법을 찾아 추천, 또는.
은 지옥, 심지어 텍스트 아무튼 ' 텍스트 일 필요는 없지만 PDF 컨테이너에 들어있는 .jpg 일 수 있습니다. PDF를 이미지로 변환하고 기본 오케스트라를 사용하는 것이 효과적 일 수 있습니다. "충분한 여백이 있습니까? 거기에 하얀 줄이 가운데에 "등등 ... –
그리고 그것은 라인 아트가 될 수 있습니다. 네. 일부 미친 괴물도 래스터 이미지 대신 여러 가지 색깔의 직사각형을 그릴 수 있습니다. 그리고 나는 심지어 인코딩을하지도 않았다. –