2013-09-07 3 views
2

Tesseract를 사용하여 문서에서 약 10-20 개의 키워드를 추출하고 싶습니다. 문서에는 모든 영문 문자/단어가 포함됩니다. 내가 관심을 갖는 것은 "Age : 23"과 같은 것입니다. Age는 내가 관심있는 키워드이고 23 (그 값)을 추출하려고합니다.특정 단어에 대한 Tesseract 교육 - 가능합니까?

내 마음에 오는 첫 번째 방법은 전체 페이지를 텍스트로 추출한 다음 인식 된 텍스트에서 키워드를 찾는 것입니다. 그러나 tesseract를 교육하는 측면에서 키워드를 알고 있으면 더 나은 방법이 있습니까? 그 결과 정확도가 향상 될 수 있습니다.

나는 Tesseract OCR의 한계를 어느 정도 알고 있습니다. 그 한계 안에서 최대화하려고 노력합니다. 모든 전문가의 조언에 감사드립니다.

답변

4

Tesseract에서 bazaar과 일치하는 패턴을 시도해보십시오.

+0

대단히 감사합니다. 나는이 접근 방식을 빨리 보았다. 유망 해 보인다. 나중에 내 연구 결과를 게시 해 보겠습니다. 이것은 나를위한 정답입니다. 그러나 다른 누군가가 다른 접근법을 줄 수 있는지보고 싶습니다. (지금 닫지 마십시오 :-). 도와 주셔서 감사합니다 – zolio

+0

패턴을 얻지 못했습니다. –

관련 문제