2010-12-16 6 views
1

많은 글꼴을 사용하는 큰 PDF 파일이 있습니다. Arial 또는 Times New Roman 글꼴 만 인식하는 다른 응용 프로그램으로 내 보내야합니다. Javascript에서이 작업을 수행 할 수 있습니까? 나는 이것을 행운으로 시험해 보았다 :Acrobat Pro 9.1에서 프로그래밍 방식으로 글꼴 변경

/* Changes font to Arial */ 
var ckWord, numWords; 
for (var i = 0; i < this.numPages; i++) 
{ 
    numWords = this.getPageNumWords(i); 
    for (var j = 0; j < numWords; j++) { 
     ckWord = (this.getPageNthWord(i,j)) 
     if (ckWord.font != "Arial") { 
       ckWord.font = "Arial"; 

      } 
     } 
} 

답변

0

Acrobat의 JS 객체 모델은 페이지 내용을 변경할 수 없도록한다.

한 글꼴을 다른 글꼴로 Kludging하는 것은 일반적으로 어쨌든, 시각적으로 말하면 좋지 않은 아이디어입니다. 글자 사이의 적절한 간격은 한 글꼴에서 다른 글꼴까지 다양 할 수 있습니다. 출력물은 ... 음울 할 것입니다. 이 왜곡 된 간격은 "단어 찾기"알고리즘을 던져서 아무 것도없는 단어 분리가 있다고 생각하게하거나 두 개 이상의 단어가 모두 하나의 큰 단어라고 생각하게 만듭니다.

예쁘지 않습니다.

실제 문제가 글꼴 자체 일 수도 있습니다. 그것도 글꼴 인코딩이 문제가 아니라 글꼴 자체 가능성이 높습니다. 내용 스트림의 바이트가 문자로 해석되는 방식입니다.

문서 속성 대화 상자의 (control + d) "글꼴"탭에서 다른 글꼴로 사용되는 인코딩을 볼 수 있습니다. 비 arial 글꼴이 이상한 것을 사용하고있는 것 같습니다 ... "Identity-H"또는 "Custom"이 가장 가능성이 있습니다.

PDF의 텍스트 인코딩을 변경하는 것은 매우 어려운 문제입니다.

마지막으로 이론적으로 텍스트를 추출 할 수 있는지 확인하려면 Acrobat에서 PDF로 복사하여 붙여 넣으십시오. 그렇게 할 수 있다면 다른 프로그램도 가능합니다. 당신이 (또는 쓰레기로 나오지 않는다면) 다른 프로그램들은 비슷한 성공의 어려움에 직면 할 것입니다.

그 시점에서 할 수있는 것은 OCR뿐입니다. 광학 문자 인식. 나는 Acrobat Pro에 간단한 OCR 프로그램이 제공된다고 생각하지만, 실수 할 수도 있습니다. 나는 그것을 사용한 적이 없다.

+0

정보 주셔서 감사합니다. Acrobat Pro에는 OCR 방법이 있습니다. 문서의 모든 텍스트를 선택해야합니까? Acrobat에서는 한 번에 한 페이지 씩 텍스트를 선택할 수 있습니다. 페이지별로 페이지 이동은 실제로 200 페이지가 넘는 파일을 처리하기 때문에 실제로 옵션이 아닙니다. – bluefrog

+0

배치 도구, 고급 -> 문서 처리 -> 배치 처리를 적용 할 수 있다고 생각합니다. –

관련 문제