iText/PDFBox를 사용하여 PDF에서 텍스트를 추출하지만 PDF에서 보이지 않는 추가 텍스트도 추출됩니다. 이러한 숨겨진 텍스트를 제거 할 수있는 방법 및/또는 도구가 있습니까?pdf에서 숨겨진 텍스트를 찾는 방법
답변
는
- 포함 숨겨진 텍스트를 추가하는 방법에는 여러 가지가 있습니다
- ???
각 PDF는 다른 방법을 사용하여 구분할 수 있으므로 숨겨진 텍스트가 어떻게 구현되는지 알아야 할 수도 있습니다.
iText에는 텍스트 색상을 반환하는 옵션이 있습니까? 그럴 경우 흰색 색상의 텍스트 객체를 무시해보십시오.
답장을 보내 주셔서 감사합니다! 그러나 여기에서는 텍스트가 일부 이미지 또는 벡터 드로잉으로 덮여있는 경우를 더 찾고있었습니다. 이러한 콘텐츠를 제거 할 수있는 도구가 있습니까? – codingscientist
PDF에서 로고와 텍스트를 모두 추출한 다음 이미지가 로고 아래에 있는지 확인해야합니다. 그런 다음 텍스트가 PDF에 표시 될 수 있지만 테스트는 기술적으로 이미지 아래에있는 투명 이미지로 웜 전체를 열 수 있습니다. 또 다른 옵션은 텍스트 오브젝트의 텍스트 색상이나 투명도를 점검하여 그리기 여부를 확인하는 것입니다. 텍스트를 그리거나 숨길 수있는 여러 가지 방법이 있으며 모든 다른 트릭을 알고있는 도구가 필요합니다. PDF가 모두 하나의 소스에서 나온다면 훨씬 더 좋은 기회를 얻게 될 것입니다. OCR은 또 다른 옵션입니다. –
- 1. PDF에서 텍스트의 x, y 위치를 찾는 방법
- 2. Poppler로 PDF에서 텍스트를 추출하기 (C++)
- 3. 링크의 제목 텍스트를 찾는 방법
- 4. PDF에 숨겨진 ocr 텍스트를 추가하는 방법
- 5. pdfbox를 사용하여 pdf에서 아랍어 텍스트를 표시하고 싶습니까?
- 6. Perl의 pdf에서 텍스트를 읽을 때 문제가 발생했습니다.
- 7. PDF에서 문자열 위치가있는 모든 텍스트를 추출하십시오.
- 8. VS2005 : 현재 함수에서 텍스트를 찾는 방법
- 9. 자바 스크립트를 사용하여 일치하는 텍스트를 찾는 방법
- 10. 텍스트를 찾는 다단계 배열을 검색하는 방법 (PHP)
- 11. PDF에서 정보를 긁는 방법?
- 12. PDF에서 주석을 정의하는 방법
- 13. Pdf에서 색인보기를 표시하는 방법
- 14. UIWebView에 표시된 PDF에서 선택한 데이터를 복사하는 방법
- 15. 로컬 pdf에서 페이지로 이동하는 방법?
- 16. PDF에서 모든 페이지를 읽는 방법?
- 17. PDF에서 지정된 내용을 추출하는 방법
- 18. PDF에서 소스로 변환
- 19. Javascript를 사용하여 일련의 숨겨진 입력 필드 색인을 찾는 방법
- 20. 하나의 PDF에서 toUnicode 맵으로 Extext하고 다른 PDF에서 사용
- 21. <label>이 숨겨진 텍스트를 변경하는 방법
- 22. 선택 상자의 텍스트와 양식 입력 텍스트를 숨겨진 필드에 추가하는 방법
- 23. span 태그의 텍스트를 가져와 숨겨진 필드에 삽입하는 방법
- 24. 다른 숨겨진 범위를 포함하는 범위에서 내부 텍스트를 가져 오는 방법?
- 25. 클래스 패스에서 숨겨진 항아리를 찾는 방법은 무엇입니까?
- 26. PDF에서 텍스트 추출
- 27. PHP - PDF에서 사용자가 선택한 텍스트를 읽는 문제를 해결하려면 어떻게해야합니까?
- 28. 표시된 PDF에서 텍스트를 복사하는 경우 iOS UIWebview 충돌이 발생합니다.
- 29. pdf에서 텍스트를 추출 할 때 글꼴에 ToUnicode 매핑이 있으면 인코딩해야합니까?
- 30. Cucumber + webrat + selenium, 어떻게 숨겨진 텍스트를 무시하나요?
숨겨진 텍스트의 샘플을 보여주십시오. 코드는 어디에 있습니까? –
일반 텍스트와 함께 숨겨진 텍스트가 추출되는 pdf 콘텐츠 스트림을 직접 구문 분석합니다. 이미지 나 벡터 드로잉으로 덮힌 텍스트도이 방법으로 나옵니다. 어떤 개체가 덮여 있는지 여부를 감지 할 방법이 없기 때문입니다 다른 사람. – codingscientist
나는 동일한 문제가있다. 때로는 텍스트를 "검열"해야하므로 직사각형이있는 영역을 커버합니다. 그럼 난 PDF로 인쇄, 그래서 사각형은 더 이상 단순한 annotations arent. 그러나 직사각형 아래에서 물건을 선택하고 복사하는 것은 여전히 가능합니다. 지금 나는 이미지로 변환하는 것에 의지한다. 그러나 그것은 우아하지 않다. – peter