2011-02-08 5 views

답변

6

그것은 pgplot 오히려 텍스트를 사용하는 것보다 라인을 직접 텍스트 글꼴을 끌었다 가능성이 높습니다. 특히 pgplot은 플로터를 포함하여 거대한 범위의 장치로 출력하도록 설계되었으므로이 작업을 수행해야합니다.

편집 :

충분한 플롯이있는 경우

는 은 아주 간단한 이미지 처리 작업의보다 노력이 가치가있을 수 있습니다. 각각의 페이지를 tiff와 ​​같은 것으로 변환하십시오. 크롬 임계 값 이미지는 이진수로, 텍스트는 최대 픽셀 값이됩니다.

템플릿 매칭 기술을 사용하십시오. 레이블 집합이 제한되어 있고 전체 레이블과 일치하는 경우 템플릿을 올바른 크기 및 회전으로 시작할 수도 있습니다. 그런 다음 각 플롯에 [1-n] 레이블이 포함 된 것으로 플래그를 지정하고 실제 텍스트를 읽을 필요가 없습니다. 당신은 당신이 여전히 비교적 쉽게 OCR을 수행 할 수 있습니다 다음 라벨, 단지 축을 중심으로 지역을 추출을 모르는 경우

는 수직을 위해 회전 - 그리고 Google의 무료 OCR lib 디렉토리를 사용

당신이 pgplot 한 경우에도 훈련 OCR을위한 세트 또는 이미지 목록

+0

예를 들어, HTTP pgplot 포스트 스크립트에서 그들을 수확하는 것보다 오히려 직접 템플릿 이미지를 구축 할 수 있습니다 : //www.astro.caltech를 .edu/~ tjp/pgplot/example1.ps.gz는 정확하게 이것을 수행합니다. OCR 기술이 대안이지만, 다음과 같이 캡션을 입력하는 것과 똑같이 빠를 수도 있습니다. – DSM

+0

@ DSM : 저는 이것을 리버스 엔지니어링에 실제로 관심이 있습니다. 귀하의 예제를 사용하여 그림에서 example = ps – Hooloovoo

+0

@ yo x² exp (-x) 문자열을 추출하고 싶습니다. @Hooloovoo : 저도 알겠지만 마틴의 권리 :이 예제에서 텍스트 자체는 존재하지 않습니다. 문자를 구성하는 선만. (그것이 내가 정확히 "이것을 수행한다"라는 의미입니다.) 파일을 직접 확인하여 확인해야합니다. 필자는 OCR 메서드를 비트 맵 이미지에 적용하거나 (아마도 새로운 캡션 사전을 만들 수 있기 때문에) 포스트 스크립트를 직접 구문 분석 할 수있는 텍스트를 취소하는 두 가지 방법 만 생각할 수 있습니다. – DSM

관련 문제