0

현재 정보를 추출하려고합니다. 예 : 보낸 사람 또는받는 사람은 청구서와 같은 비즈니스 문서에서 문서는 ocr 소프트웨어로 xml 파일로 처리되었으므로 형식 지정 특성이 주석으로 지정됩니다. 나는 보낸 사람과받는 사람과 같은 기능으로 수동으로 유사한 문서 하나를 주석 처리 한 후 새 문서에서 특정 정보를 추출하려고합니다.정보 추출 - 비즈니스 문서

그래서 내 질문은 학습 또는 일치하는 알고리즘이 있으면 유사한 문서의 단 하나 또는 두 개의 예제와 비교하여 특정 데이터를 추출 할 수 있습니다. 그렇다면 : 어떻게 든 자바 프레임 워크가 가능한가?

너의 다행히도

maggu

+0

어떻게 일치 시키시겠습니까? 두 문서가 공통점이 없다면 어떻게 될까요? 하나의 문서가있을 때 완벽한 일치를 찾고 있습니까? – Mark

+0

문서가 비슷하다고 가정합시다. 예를 들어 동일한 템플릿을 기반으로하는 두 개의 지폐가 있습니다. 첫 번째 주석에 주석을 첨부 한 후 두 번째, 세 번째, ... 등의 정보를 추출합니다. – maggu

답변

0

XML 구조는 항상 (동일한 템플릿을 사용하여) 동일한 경우 :

그냥 정보가 너무 위치한 선택된 노드의 XML 부모 노드를 저장을 당신은 정보의 경로를 알고 있습니다. 문제가되지 않아야 함 - 사소한 작업.


당신이 정보를 검색해야하는 경우 :

그것은 어떤 특징 추출 규칙을 작성하여 일할 수있는 다음 그 정보가있는 영역을 검출하는 서포트 벡터 머신을 훈련 기능을 사용.

한 번 비슷한 질문을했습니다. Algorithm to match natural text in mail.

그러나 이것은 결코 사소한 것이 아니며, 하나 또는 두 개의 교육 문서 이상을 필요로합니다.