2016-08-26 1 views
0

다음 작업을 수행하는 데스크톱 응용 프로그램을 작성해야합니다. 프로그래밍 언어로 파이썬을 사용하려고 생각하고 있지만 다른 언어로도 적절한 접근법이나 라이브러리가 있다면 전환하는 것이 좋을 것 같습니다.캡처 한 이미지에서 캡쳐 화면 및 파싱 데이터

캡처하려는 파일은 특정 워드 프로세서 만 실행할 수있는 HWP 파일입니다.

  1. 캡처 이미지의 전체 HWP 문서는 HWP 파일이 MCQ 형식의 퀴즈

  2. 가에서 데이터를 구문 분석 포함

  3. 여러 페이지 (> 10 < 15)에 걸쳐 수 질문과 답변을 구분하여 별도의 이미지 파일로 저장하는 이미지입니다.

나는 다음과 같은 파이썬 라이브러리로 보였지만, 여전히 둘 다 1과 3

https://pypi.python.org/pypi/pyscreenshot

어떤 도움을 주시면 감사하겠습니다 수행하는 방법을 알아낼 수 없습니다 생각했다.

답변

0

제대로 얻으면 이미지에서 텍스트를 추출해야합니다. 이 경우 tesseract와 같은 OCR을 사용해야합니다. OCR을 사용하기 전에 이미지에서 노이즈를 제거하십시오. 이미지를 분할하려면 퀴즈를 구별하기 위해 고유 한 문자열을 추가하십시오. Q/A

+0

사실, 텍스트를 추출하는 것이 내가 원하는 것이 아닙니다. 이미지 (질문 및 답변에 해당하는 이미지)를 따로 추출해야합니다. 또한 파일 형식과 내용은 수정할 수있는 것이 아니므로 고유 한 문자열을 사용하여 질문과 답변을 구별 할 수 없습니다. –

+0

OCR을 사용할 수 있기 때문에 "찾을 수 있습니까?" char와 질문/대답의 숫자를 비교하고 (해당하는만큼) 일치시킵니다. OCR은 공백으로 자르기가 아니라 Q/A를 구분하는 우아한 방법을 제공합니다. –

+0

제안 해 주셔서 감사합니다. OCR을 사용하는 것이 좋은 생각 인 것 같지만 질문 패턴 ("?"또는 정규 질문 번호 또는 경우에 따라 질문으로 사용)의 일관성이 문제가 될 수 있습니다. 확실히 Tesseract 라이브러리를 사용합니다. –