포스트 스크립트 파일에서 텍스트 정보를 추출하는 방법이 있습니까? (.ps .eps)

포스트 스크립트 이미지 파일 (내 축 레이블 캡션)에 포함 된 텍스트 정보를 추출하고 싶습니다. 이러한 이미지는 pgplot으로 생성되었습니다. 우분투에서 ps2ascii와 ps2txt를 시도했지만 유용한 결과를 얻지 못했습니다. 누구든지 다른 방법을 알고 있습니까?포스트 스크립트 파일에서 텍스트 정보를 추출하는 방법이 있습니까? (.ps .eps)

감사

출처

2011-02-08 Hooloovoo

그것은 pgplot 오히려 텍스트를 사용하는 것보다 라인을 직접 텍스트 글꼴을 끌었다 가능성이 높습니다. 특히 pgplot은 플로터를 포함하여 거대한 범위의 장치로 출력하도록 설계되었으므로이 작업을 수행해야합니다.

편집 :

충분한 플롯이있는 경우

는 은 아주 간단한 이미지 처리 작업의보다 노력이 가치가있을 수 있습니다. 각각의 페이지를 tiff와 같은 것으로 변환하십시오. 크롬 임계 값 이미지는 이진수로, 텍스트는 최대 픽셀 값이됩니다.

템플릿 매칭 기술을 사용하십시오. 레이블 집합이 제한되어 있고 전체 레이블과 일치하는 경우 템플릿을 올바른 크기 및 회전으로 시작할 수도 있습니다. 그런 다음 각 플롯에 [1-n] 레이블이 포함 된 것으로 플래그를 지정하고 실제 텍스트를 읽을 필요가 없습니다. 당신은 당신이 여전히 비교적 쉽게 OCR을 수행 할 수 있습니다 다음 라벨, 단지 축을 중심으로 지역을 추출을 모르는 경우

는 수직을 위해 회전 - 그리고 Google의 무료 OCR lib 디렉토리를 사용

당신이 pgplot 한 경우에도 훈련 OCR을위한 세트 또는 이미지 목록

출처

2011-02-08 15:16:20

예를 들어, HTTP pgplot 포스트 스크립트에서 그들을 수확하는 것보다 오히려 직접 템플릿 이미지를 구축 할 수 있습니다 : //www.astro.caltech를 .edu/~ tjp/pgplot/example1.ps.gz는 정확하게 이것을 수행합니다. OCR 기술이 대안이지만, 다음과 같이 캡션을 입력하는 것과 똑같이 빠를 수도 있습니다. – DSM

@ DSM : 저는 이것을 리버스 엔지니어링에 실제로 관심이 있습니다. 귀하의 예제를 사용하여 그림에서 example = ps – Hooloovoo

@ yo x² exp (-x) 문자열을 추출하고 싶습니다. @Hooloovoo : 저도 알겠지만 마틴의 권리 :이 예제에서 텍스트 자체는 존재하지 않습니다. 문자를 구성하는 선만. (그것이 내가 정확히 "이것을 수행한다"라는 의미입니다.) 파일을 직접 확인하여 확인해야합니다. 필자는 OCR 메서드를 비트 맵 이미지에 적용하거나 (아마도 새로운 캡션 사전을 만들 수 있기 때문에) 포스트 스크립트를 직접 구문 분석 할 수있는 텍스트를 취소하는 두 가지 방법 만 생각할 수 있습니다. – DSM

포스트 스크립트 파일에서 텍스트 정보를 추출하는 방법이 있습니까? (.ps .eps)

답변

관련 문제