2011-09-28 3 views
2

PDF 파일을 분석하고이를 기반으로 HTML을 생성하는 소프트웨어를 작업 중입니다. 거기에는 이미 많은 일들이 있습니다. 그래서 가능하다는 것을 알고 있습니다. 나는 비즈니스 목적으로 자기 자신을 써야만합니다.PDF에서 글꼴 색 정보 읽기

나는 PDF에서 모든 텍스트 정보, 위치, 글꼴을 가져올 수 있었지만 텍스트의 색을 읽는 데 어려움을 겪고 있습니다. 나는 현재 PDF를 분석하기 위해 PDFMiner를 사용하고 있지만 필자 자신의 PDFReader를 작성해야 할 필요가 있다고 생각하기 시작했다. 그럼에도 불구하고 문서의 색상 정보가 보관되는 위치를 파악할 수 없다. 나는 PDF 스펙을 읽었지만 필요한 정보를 찾을 수 없다.

나는 기쁨없이 google을 닦았다.

미리 감사드립니다.

답변

3

PDF 파일 참조 설명서에 4.5.7 컬러 운영자 섹션에 설명 된대로 PDF 파일의 콘텐츠 스트림 객체의 g, rg 또는 k 사업자 중 하나를 사용하여 설정되는 텍스트 및 기타 채워 그래픽의 색상 .

G.3 단순한 그래픽 예 참조 설명서의은 이러한 연산자가 일부 도형을 칠하고 채우는 데 사용되는 것을 보여줍니다 (텍스트가 아님). 를 PDF 파일을 직접 분석 할 때

http://www.adobe.com/devnet/pdf/pdf_reference.html

당신은 상호 참조 테이블의 오프셋 (offset) 파일이 들어있는 파일의 끝 부분에 트레일러 을 읽고 시작합니다. 이 테이블에는 의 파일 오프셋이 PDF 파일의 각 개체에 포함됩니다. 개체는 다른 개체에 대한 참조가 인 트리 구조에 있습니다. 개체 중 하나는 콘텐츠 스트림 입니다. 이 내용은 섹션에 설명되어 있습니다. 3.4 파일 구조3.6 PDF 문서의 문서 구조.

PDF 파일을 직접 파싱하는 것이 가능하지만이 작업은 입니다. 콘텐츠 스트림은 압축 될 수 있으며 다른 개체에 대한 참조가 포함될 수 있으며 에 댓글 등이 포함될 수 있으며 이러한 모든 경우를 처리해야합니다.

PDFMiner 소프트웨어가 이미 콘텐츠 스트림을 읽었습니다. 아마도 은 텍스트의 색 을보고하기 위해 PDFMiner를 쉽게 확장 할 수 있습니까?

+0

도움 주셔서 감사합니다. 나는 너를 투표했다. 스트림 오브젝트를 디코드 해 내부를 들여다 볼 수있는 방법을 알고 있습니까? –

+0

색상 정보를 추출하는 방법에 대한 소식이 있으십니까? – JulienFr