2009-01-30 4 views
1

나는 PDF를 가져 와서 텍스트를 추출하려고한다. 그런 다음 ColdFusion의 사용 가능한 Verity 검색을 사용하여 내용을 검색 할 수있게하려고합니다.Java 또는 .NET 라이브러리를 사용하여 ColdFusion의 PDF에 광학 문자 인식 수행?

이미이 작업을 수행하고있는 라이브러리가 있습니까? 나는 그들이 CF에서 호출 될 수 있기 때문에 Java 또는 .NET (Java 선호) 라이브러리를 범위에 포함합니다.

어떤 통찰력이나 경험이라도 대단히 감사 할 것입니다 ... 감사합니다!

편집 : PDF 파일의 색인 생성은 텍스트가 PDF에 포함되어있는 경우 작동합니다. 처리해야하는 PDF에는 텍스트가 이미지로 스캔됩니다.

답변

1

Tesseract OCRcfexecute을 사용하여 자체 소프트웨어 (즉, 전용/VPS)를 실행할 수 있다면 PDF를 텍스트로 변환 할 수 있습니까?

+0

내 서버가있어 잠재적 인 것처럼 보입니다. 나는이 년 전에 건너 왔고 이름을 기억할 수 없었다. .. 고마워! 그래도 TIFFS 만 처리하는 것처럼 보이므로 PDF의 각 페이지를 변환해야합니다. –

0

레이 캠든은 working with PDFs in ColdFusion 8에 팔 부분 시리즈가 있습니다.

Part 7은 DDX를 사용하여 PDF에서 텍스트를 가져 오는 시리즈입니다.

OCR 요구 사항과 함께 작동하는지는 확실하지 않지만 여전히 조사 할 가치가있을 수 있습니다.

0

준 관련 메모에서 coldfusion에서 2D Matrix 바코드를 인코딩하고 읽는 것에 대해 매우 정교한 게시물을 발견했습니다.

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

이 인코딩 된 정보를 추출 할 필요가 내 몇 가지 문제를 해결할 수 있지만 나는 텍스트의 몸 후에도입니다.

tessnet에 관해서는 .net 버전도 있습니다. http://www.pixel-technology.com/freeware/tessnet2/ 기본적으로 TIFF 대신 PDF로 피드 할 수있는 경우 .. :)

관련 문제