인코딩 된 PDF 파일을 정기적으로받습니다. 인코딩은 다음과 같이 작동알고리즘이 필요합니다.
- PDF 파일 모두를 선택하고 Acrobat Reader를 통해
- 을 테스트를 복사하여 텍스트 편집기에 붙여
- Acrobat Reader를 제대로 표시 할 수
- 콘텐츠 것을 보여줍니다 그래서
를 인코딩, 예입니다
13579 -> 3579;
hello -> jgnnq
,
기본적으로 ASCII 문자의 오프셋 (어쩌면 스왑)입니다.
몇 가지 샘플에만 액세스 할 수있는 경우 어떻게 오프셋을 자동으로 찾을 수 있습니까? 인코딩 오프셋이 변경되었는지는 확신 할 수 없습니다. 내가 아는 전부는 일반적으로 (항상은 아닐지라도) 어떤 텍스트가 나타날 것입니다. "이름 :", "요약 :", "합계 :", PDF 내.
감사합니다.
편집 : 의견에 감사드립니다. 나는 작은 질문에 질문을 파괴하려고 것 :
제 1 부 : How to detect identical part(s) inside string?
"13579 -> 3579;"를 수정했습니다. 당신이 보는 것이 당신이 의미하는 바램이기를 바랍니다. – zaf
거기에는 꽤 많은 수의 무료 소프트웨어가 있습니다. 그런 프로그램을 찾으십니까? 아니면 직접 작성하려고합니까? –
@zaf 나는 '3579;가 정확하다고 믿습니다. '13579;가 아님,'9 '+ 2는'; ' 실제로 – YOU