텍스트로 변환 된 PDF를 처리 중입니다. 문제가 있습니까? 때로는 문장이 불안정한 PDF 서식 및/또는 PDF- 텍스트 변환으로 인해 분할됩니다.분할 문장을 재결합하는 방법은 무엇입니까?
그래서 저는 분리 된 문장을 "재조합"하는 데 도움이되는 도구를 찾고 있습니다. 페이지 머리글 또는 바닥 글은 종종 범인입니다. 인물 및 차트와 같은 다른 요소도 사용할 수 있지만 현재로서는 내 관심사가 아닙니다.
이 문제
몇 가지 방법으로 해결해야 할 수 있습니다확실히 도움이 될 NLP 문장 감지를 수행하기 전에 머리글과 바닥 글을 제거. 나는 이것을하는 도구를 모른다. 도구 나 방법에 대해 알고 있습니까? (이론적으로 페이지 번호를 제거하는 일반적인 생각은 페이지 당 한 번 씩 증가하는 숫자가 계속 증가한다는 것입니다.)
문장이 문법적으로 정확할 가능성을 판단 할 수있는 NLP 파서를 사용하면 도움이됩니다. 그런 식으로 나는 두 문장의 합병의 정확성과 비교하여 따로 따로 취해진 두 문장의 문법적 정확성을 비교할 수있다. (Stanford Parser는 이해하기 때문에 문법적 정확성을 평가하지 않습니다.) 도움이되는 도구에 대해 알고 있습니까?
제안 사항, 답변 또는 기타 문제 해결 방법이 있으면 알려주십시오.
예제 입력 없이는 많은 조언을 제공하기가 어렵습니다. 중단 된 문장은 어떻게 생겼습니까? 그것은 머리글이나 바닥 글에 의해 깨진 경우 공간이 많이 있습니까? 왜 문장을 머리말이나 꼬리말없이 분리 할 수 있습니까? – polm23
@ polm23 다음은 Ruby입니다 : s = "임의의 문장으로 시작하십시오. 중간에 일부 개행과 페이지 번호를 삽입하십시오."; s.insert (29, "\ n \ n3 \ n \ n"); –
고맙습니다. 그것이 전형적인 경우 구두점으로 끝나지 않는 줄을 찾은 다음 문자가있는 줄을 찾을 때까지 다음 줄을 모두 제거 할 수 있습니다. 's/\ ([!?.] \) \ n [^ A-z] */\ 1/g'와 같은 것. – polm23