2013-05-07 2 views
0

나는 pdf에 대해 한 가지 생각해보고 싶다.pdf에서 데이터 가져 오기/html/javacript

그래서 저는 pdf에서 일부 데이터를 가져오고 싶지만 지정된 데이터 만 가져오고 싶습니다. pdf에서 무엇을 얻을지 선택할 수 있습니까? OCR 및 데이터 캡처 (또는 구문 분석) : 예를 들어

이 이미지입니다, 그래서 당신은 내가 PDF에서 넣어하고자하는 데이터를 볼 수 있습니다 :이 질문은 두 가지 주요 프로세스를 감동 pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png

감사

+0

당신은 OCR을 통해 또는 어쩌면이 soloution와 그것을 만드는 시도 할 수 있습니다 : http://stackoverflow.com/questions/4780697/php-pdf-to-string – PKeidel

+0

다음 PDF 파일 컴퓨터 생산 또는 스캔하고 있습니까? –

+0

컴퓨터로 제작 된 PDF 파일 – user2352034

답변

0

OCR은 Optical Character Recognition (광학 문자 인식)의 약자입니다. 이 프로세스는 이미지를 텍스트로 변환합니다. PDF가 이미지 전용 PDF (스캔, 팩스, 래스터 라이 제이션 등의 텍스트 레이어 없음) 인 경우이 범주의 소프트웨어를 사용해야합니다. PDF에 이미 전자 텍스트 데이터가 포함되어있는 경우이 단계를 건너 뛸 수 있습니다.

다른 모든 텍스트 중에서 특정 필드를 찾는 것과 같이 지능형 데이터 위치 및 추출을위한 데이터 캡처 표준. 특수 소프트웨어 패키지 및/또는 구문 분석 프로세스가 있습니다 (이전 게시물 here 참조).

모든 '문서'에 텍스트가 포함 된 '영역'이있는 경우 이미지를 자르고 더 작은 영역을 OCR로 전달하면 텍스트 추출 로직이 간단 해집니다. 와).

리아

+0

안녕하세요, 답변 해 주셔서 감사합니다. 내 PDF는 컴퓨터에서 생성되므로 스캔되지 않습니다. PDF는 항상 동일합니다. 단지 몇 번에 2-3 개의 숫자가 있습니다. 숫자가있는 6-7 개의 행이 있습니다.이 숫자를 잡는 법을 모르기 때문에, 행이 몇 개나 있습니다. .. – user2352034

+1

컴퓨터에서 생성 된 PDF는 이미지 전용이거나 텍스트 레이어로 생성자에 따라 다를 수 있습니다. Acrobat Reader에서 열어보고 값을 선택하거나 검색해보십시오. 당신이 그것을 찾거나 선택할 수 있다면, 당신은 텍스트 레이어를 가지며, OCR 부분을 건너 뛸 수 있습니다. PDF는 서식 지정 정보를 제공하지 않기 때문에 텍스트 파싱에 전혀 도움이되지 않습니다. 일관성이 있다면 간단한 분석 로직을 작성하여 예측 가능한 특정 장소에서 데이터 유형을 찾을 수 있습니다. OCR + 데이터 캡처는 텍스트 기반 PDF의 경우에도 가능합니다. 이미지 개체로 작업하기가 더 쉽기 때문입니다. –

+0

원한다면 몇 가지 유사 콘텐츠를 보내주십시오. 도구에 대한 테스트를 해보겠습니다. ilya @ wisetrend.com –

관련 문제