2012-11-14 2 views
0

텍스트로 변환 된 PDF를 처리 중입니다. 문제가 있습니까? 때로는 문장이 불안정한 PDF 서식 및/또는 PDF- 텍스트 변환으로 인해 분할됩니다.분할 문장을 재결합하는 방법은 무엇입니까?

그래서 저는 분리 된 문장을 "재조합"하는 데 도움이되는 도구를 찾고 있습니다. 페이지 머리글 또는 바닥 글은 종종 범인입니다. 인물 및 차트와 같은 다른 요소도 사용할 수 있지만 현재로서는 내 관심사가 아닙니다.

이 문제

몇 가지 방법으로 해결해야 할 수 있습니다

  1. 확실히 도움이 될 NLP 문장 감지를 수행하기 전에 머리글과 바닥 글을 제거. 나는 이것을하는 도구를 모른다. 도구 나 방법에 대해 알고 있습니까? (이론적으로 페이지 번호를 제거하는 일반적인 생각은 페이지 당 한 번 씩 증가하는 숫자가 계속 증가한다는 것입니다.)

  2. 문장이 문법적으로 정확할 가능성을 판단 할 수있는 NLP 파서를 사용하면 도움이됩니다. 그런 식으로 나는 두 문장의 합병의 정확성과 비교하여 따로 따로 취해진 두 문장의 문법적 정확성을 비교할 수있다. (Stanford Parser는 이해하기 때문에 문법적 정확성을 평가하지 않습니다.) 도움이되는 도구에 대해 알고 있습니까?

제안 사항, 답변 또는 기타 문제 해결 방법이 있으면 알려주십시오.

+0

예제 입력 없이는 많은 조언을 제공하기가 어렵습니다. 중단 된 문장은 어떻게 생겼습니까? 그것은 머리글이나 바닥 글에 의해 깨진 경우 공간이 많이 있습니까? 왜 문장을 머리말이나 꼬리말없이 분리 할 수 ​​있습니까? – polm23

+0

@ polm23 다음은 Ruby입니다 : s = "임의의 문장으로 시작하십시오. 중간에 일부 개행과 페이지 번호를 삽입하십시오."; s.insert (29, "\ n \ n3 \ n \ n"); –

+0

고맙습니다. 그것이 전형적인 경우 구두점으로 끝나지 않는 줄을 찾은 다음 문자가있는 줄을 찾을 때까지 다음 줄을 모두 제거 할 수 있습니다. 's/\ ([!?.] \) \ n [^ A-z] */\ 1/g'와 같은 것. – polm23

답변

1

pdf에서 데이터를 추출하려면 Apache Tika를 사용하십시오.

관련 문제