2012-01-24 5 views
1

iText/PDFBox를 사용하여 PDF에서 텍스트를 추출하지만 PDF에서 보이지 않는 추가 텍스트도 추출됩니다. 이러한 숨겨진 텍스트를 제거 할 수있는 방법 및/또는 도구가 있습니까?pdf에서 숨겨진 텍스트를 찾는 방법

+0

숨겨진 텍스트의 샘플을 보여주십시오. 코드는 어디에 있습니까? –

+0

일반 텍스트와 함께 숨겨진 텍스트가 추출되는 pdf 콘텐츠 스트림을 직접 구문 분석합니다. 이미지 나 벡터 드로잉으로 덮힌 텍스트도이 방법으로 나옵니다. 어떤 개체가 덮여 있는지 여부를 감지 할 방법이 없기 때문입니다 다른 사람. – codingscientist

+0

나는 동일한 문제가있다. 때로는 텍스트를 "검열"해야하므로 직사각형이있는 영역을 커버합니다. 그럼 난 PDF로 인쇄, 그래서 사각형은 더 이상 단순한 annotations arent. 그러나 직사각형 아래에서 물건을 선택하고 복사하는 것은 여전히 ​​가능합니다. 지금 나는 이미지로 변환하는 것에 의지한다. 그러나 그것은 우아하지 않다. – peter

답변

1

  • 화이트 텍스트 색상 OCG
  • 100 % 투명 텍스트 상에 숨겨진/보이지 않는/잠금 콘텐츠 그룹 층에 숨겨진

    1. 포함 숨겨진 텍스트를 추가하는 방법에는 여러 가지가 있습니다
    2. ???

    각 PDF는 다른 방법을 사용하여 구분할 수 있으므로 숨겨진 텍스트가 어떻게 구현되는지 알아야 할 수도 있습니다.

    iText에는 텍스트 색상을 반환하는 옵션이 있습니까? 그럴 경우 흰색 색상의 텍스트 객체를 무시해보십시오.

  • +0

    답장을 보내 주셔서 감사합니다! 그러나 여기에서는 텍스트가 일부 이미지 또는 벡터 드로잉으로 덮여있는 경우를 더 찾고있었습니다. 이러한 콘텐츠를 제거 할 수있는 도구가 있습니까? – codingscientist

    +1

    PDF에서 로고와 텍스트를 모두 추출한 다음 이미지가 로고 아래에 있는지 확인해야합니다. 그런 다음 텍스트가 PDF에 표시 될 수 있지만 테스트는 기술적으로 이미지 아래에있는 투명 이미지로 웜 전체를 열 수 있습니다. 또 다른 옵션은 텍스트 오브젝트의 텍스트 색상이나 투명도를 점검하여 그리기 여부를 확인하는 것입니다. 텍스트를 그리거나 숨길 수있는 여러 가지 방법이 있으며 모든 다른 트릭을 알고있는 도구가 필요합니다. PDF가 모두 하나의 소스에서 나온다면 훨씬 더 좋은 기회를 얻게 될 것입니다. OCR은 또 다른 옵션입니다. –

    관련 문제