2014-06-05 3 views
1

나는 여러 회사의 재무 보고서 인 PDF가 있습니다. 이 재무 보고서는 테이블 형식이지만 크기, 모양 및 형식이 다릅니다. 현재 자산, 책임 및 형평과 같은 정보를 추출하여 데이터베이스에 보관하고 싶습니다.UIMA를 사용하여 PDF에서 데이터 추출

UIMA에서 허용 할 수 있습니까?

내 계획은 Tika를 사용하여 PDF를 텍스트로 변환 한 다음 UIMA를 사용하여 이러한 텍스트에 주석을 달고 Current Asset, Current Liability와 같은 이러한 주석을 색인화하는 것입니다.

감사합니다.

답변

3

네, 이것은 UIMA에 대한 아주 좋은 유스 케이스입니다. 몇 포인터 :

  • DKPro 코어 이미 귀하의 요구 사항에 맞지 않는 경우 PDFbox에서 PDFbox
  • 를 사용하는 PDF reader있다, 나는 PdfTextStream 당신은 쓸 RUTA workbench을 살펴해야
  • 좋은 결과
  • 준 발견 정보 추출 규칙. 은 실제로으로 UIMA의 작업 속도를 높여줍니다.
+0

답장을 보내 주셔서 감사합니다. 나는 UIMA RUTA를 공부하고 있습니다. 그러나 나는 그것을 이해하는데 어려움이 있습니다. UUTA 웹 사이트에서 제공되는 자료 외에 RUTA에 관한 다른 자료 나 자습서를 제안 해 주시겠습니까? –