2009-10-25 4 views
19

LaTeX에서 PDF를 만드는 방법을 알고 있습니다. 이전에 만든 PDF에서 LaTeX 코드를 추출하는 방법이 있습니까? 어쨌든 누군가 나에게 PDF를 보내고 형식화를 좋아한다면 어떨까요? LaTeX을 추출 할 수 있습니까?LaTeX로 PDF를 복구

+1

http://tex.stackexchange.com/questions/8503/how-to-convert-pdf-to-latex –

답변

12

LaTeX에는 PDF와 일대일 변환이 없습니다. 귀하의 첫 번째 질문에 관해서는, 나는 그러한 전환이 기술적으로 가능할 수 있다고 믿지만, 그렇게 할 응용 프로그램이 아직 존재하지 않는다고 생각합니다. 어셈블러가 고수준 언어로 다시 디 컴파일 될 수있는 방법과 비슷하게, 아마도 그것을 할 수있는 방법이있을 것입니다. 그러나 - pdf에는 모든 종류의 데이터 (AutoCAD 도면, JPEG 그래픽, 글꼴 파일, 양식, 디지털 서명 등)를 포함 할 수 있습니다. LaTeX는 이러한 것들이 무엇인지 전혀 모릅니다. 따라서 두 번째 질문에 대한 답은 no입니다. PDF 문서에서 LaTeX를 추출 할 방법이 없습니다.

4

짧은 버전 : 제

긴 버전 : 당신은 기술적으로 할 수 있지만, 추측 및 추론을 많이 포함합니다 : 그것은 디 컴파일 등의 많은입니다.

필자는 PDF 내부에 익숙하지 않지만, 형식을 정의하고 LaTeX 에서처럼 머리글 등에 적용하는 대신 글꼴/크기/위치를 직접 설정할 가능성이 높습니다.

6

문서 원본을 PDF 파일에 포함시킨 경우에만 가능합니다. 이 작업을 수행하려면 attachfile 패키지를 참조하십시오.

+0

태그가 추가 된 PDF를 사용하여 단서 제공 메타 데이터를 추가 할 수 있습니다. –

+0

네, 맞습니다.하지만이 경로를 통해 LaTeX 소스를 PDF로 바꾸는 기존의 방법을 알지 못합니다. 어떤 제안? –

+1

죄송합니다. 최근까지 귀하의 질문을 보지 못했습니다. Ross Moore는 수학에 PDF를 생성하는 Tex 코드가 포함 된 PDF 생성을 허용하는 pdftex 추가 기능을 시연했습니다. 이것은 질문에 대한 완전한 대답에서 먼 길이지만, 나는 이것이 가능하다는 것을 보여줄 것이라고 생각합니다. 이 말에 대한 의견을 말하기보다 더 많이 말하고 싶습니다 - 저는 이것이 훌륭한 석사 학위 논문을 만들 수 있다고 말하고 싶습니다. –

1

관련 질문에 대한 내 대답을 참조하십시오 (how to turn a DVI to tex?)

이 증폭 - sdrawkcab의 sdaer의 txet의 일부 (과) 좌표에 의존 읽기 순서로 문자에 대한 요구 사항은 없다 (내가 찾은 PDF 파일 . 즉, 글꼴 메트릭에 따라 달라질 수 있습니다으로 재구성하는 것은 매우 어려운 일이다. 소름이 끼치는 ASCII86 프로토콜을 사용할 수있다.

-1

그것은 PDF 파일의 가져 오기를 포함 texmacs로 작동 할 수 .

+0

texmacs는이 문제를 해결 하려던 적이없는 포기 소프트웨어입니다. –

+0

아직, 이미 해 봤습니다. – Aif

+0

더 자세히 알려주세요! 나는 몇 년 전에 혁명이 필요없는 문제에 대한 과도한 접근 방식으로 texmacs를 썼다. 나는 다른 생각을 가지고 있다고 생각하니? –

1

데이터를위한 가장 좋은 방법 복잡한 형식으로 인해 pdf 파일에서 마이닝을 열면됩니다. 어도비 일러스트 레이터와 함께. 그런 다음 pdf 파일을 svg 파일로 변환하고 svg 파서 라이브러리를 사용하여 까다로운 코드를 작성하십시오.

한 효율적인 SVG 파서 LIB는

batik이 (Linux의 경우는 SVG로 PDF를 변환 꽤 복잡 : calcmaster.net/personal_projects/pdf2svg/)입니다 봤는데

PS 당신의 질문의 두 번째 부분에 대한 해결책을 찾기 위해 많은 노력을하고 있습니다. 그러나 저는 "Visualizing Data, Ben Fry, O'Reilly"와 같은 책에서 알아 냈습니다. pdf 특히 Adobe pdf는 구문 분석하기가 복잡하므로 대신 svg parser lib를 사용하십시오.

+0

OP에서 Linux 솔루션을 요청했습니다 ... –

1

Inkscape는 PDF를 가져온 다음 LaTeX 소스에 PostScript를 삽입하여 기본적으로 작동하는 "LaTeX with PSTricks macros"로 저장할 수 있습니다. 그것은 가치보다 더 많은 문제이며 결과 라텍스 소스는 PDF로 다시 출력되기 전에 사전 처리되어야합니다.

어쨌든, LaTeX 컴파일러에 대한 가상의 PDF 파일을 가지고 있더라도, 각 문자 나 단어의 위치와 크기가 따로 지정되어있는 곳에서 뭔가를 얻을 수 있습니다. - 내가 원하는 것은 그 반대입니다. 분모가 수평선 아래의 숫자가 아닌 분수의 절반이되는 것입니다.

3

pdftohtml 및 gnuhtml2latex를 사용하여 PDF를 HTML로 변환하고 HTML을 TEX로 변환 할 수 있습니다.

실제로 PDF에서 LaTeX 로의 변환은 2 단계로 수행됩니다. 결과는 여전히 "햄버거에서 소를 뽑아내는 것과 같습니다."하지만 일부 정리 스크립트와 함께 결과는 꽤 괜찮을 수 있습니다.

GlobalBlindSpot의 블로그 게시물 "Rudimentary PDF to LaTeX conversion in Linux"에는 .pdf 파일을 .tex 파일로 변환하는 예제 Bash 스크립트가 있으며 .pdf 파일로 다시 변환 할 수 있습니다.

8

OCR처럼 PDF 파일을 읽고 라텍스 코드를 다시 만드는 도구가 있습니다. 거의 완벽하고 전화가 "Infty Reader"입니다! 라텍스는 꽤 확장 성이 있기 때문에 모든 깔끔한 형식을 올바르게 이해할 수 있다고 생각하지 않습니다.

+1

InftyReader는 MS Windows 전용입니다. –