2014-05-21 3 views
0

두 개의 pdf 파일이 있습니다. Sercurity 탭의 두 파일 모두 보안 방법 : 보안 없음 및 문서 어셈블리 : 허용되지 않음과 페이지 추출 : 허용되지 않음을 설정했습니다. 다른 항목도 허용됩니다. 내가 PDF에서 텍스트를 검색 할 STANDART ITextSharp 방법을 사용하여 :C에서 ITextSharp의 PDF에서 텍스트를 읽을 수 없습니다

PdfReader pdfReader = new PdfReader(fileName); 

       for (int page = 1; page <= pdfReader.NumberOfPages; page++) 
       { 
        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); //LocationTextExtractionStrategy(); 
        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); 

        currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); 
        text.Append(currentText); 

을 첫 번째 파일에서 나는 텍스트를 검색 할 수 없습니다 두 번째 파일에서 문제 wihtout currentText를 얻을 수 currentText가 비어 있습니다. LocationTextExtractionStrategy로 시도했지만 결과는 같습니다. SodaPDF에서이 파일을 열어 txt 파일로 변환했지만이 파일도 비어 있습니다 (frist 파일은 문제없이 txt로 변환됩니다). C#이나 다른 응용 프로그램에서이 파일의 텍스트를 읽을 수 있습니까? Adobe Reader를 구입하면이 파일을 txt로 변환합니까? 두 파일의 차이점은 무엇입니까?

감사합니다.

+2

가능하면이 두 파일을 사람들이 체크 아웃 할 수 있도록하십시오. –

+2

Adobe Reader에서 텍스트를 복사/붙여 넣기 할 수 있습니까? 그렇지 않은 경우 텍스트를 OCR하지 않는 한 어떤 소프트웨어로도 추출 할 수 없습니다. –

+0

Pdf 파일 https://jumpshare.com/b/GRUHz0e1iXRPRpgL6nHE – Robert

답변

0

. PDF 파일을 텍스트 파일로 변환하려면 Aspose.Pdf for .NET을 다운로드하여 사용해 보시기 바랍니다. 파일에 이미지가 포함되어 있고 해당 이미지에서 텍스트를 추출해야하는 경우 Aspose.Pdf를 사용하여 Pdf 파일을 이미지로 변환 한 다음 Aspose.OCR for .NET을 사용하여 OCR을 수행 할 수 있습니다. 다음

//open document 
Document pdfDocument = new Document("input.pdf"); 
//create TextAbsorber object to extract text 
TextAbsorber textAbsorber = new TextAbsorber(); 
//accept the absorber for all the pages 
pdfDocument.Pages.Accept(textAbsorber); 
//get the extracted text 
string extractedText = textAbsorber.Text; 
// create a writer and open the file 
TextWriter tw = new StreamWriter("extracted-text.txt"); 
// write a line of text to the file 
tw.WriteLine(extractedText); 
// close the stream 
tw.Close(); 

무료 평가판을 다운로드하여 보시기 바랍니다 .NET

에 대한 Aspose.Pdf를 사용하여 텍스트 PDF로 변환하는 샘플 코드입니다.

+0

OCR에 오류가 있습니다 : 'C : ₩ Program Files ₩ Microsoft Visual Studio 9.0 ₩ Common7 ₩ IDE ₩ 2011.07.02 v1.0 Aspose.OCR.Resources.zip'파일을 찾을 수 없습니다. – Robert

+0

http://goo.gl/5ZKknp 링크에서 리소스 파일을 다운로드 할 수 있습니다. 시험해보고 문제가 발생할 경우를 대비하여 알려주십시오. –

1

이미지가 실제로 많은 PDF가있을 수 있습니다. Bruno Lowagie가 말했듯이, 이미징 된 pdf에서 텍스트를 추출 할 수는 없습니다. 당신은 이것을 위해 제 3 자 OCR에 갈 필요가 있습니다. 당신은 워드, HTML 등의 편집 가능한 형식으로 PDF로 변환하는 어도비 아크로벳을 사용 ca를

.. 내가 Aspose에서 소셜 미디어 개발자로 일

+0

당신이 옳다고 생각합니다. 나는이 pdf 내에서 이미지라고 생각합니다. 텍스트를 복사 할 수 없습니다 이미지 만 복사 할 수 있습니다. OCR을 사용해 보았지만 결과가 매우 좋지 않았습니다. 나는 무료 버전의 OCR을 다운로드했다. 어쩌면 모든 셰어웨어 버전이 더 나을 것입니다. Adobe Acrobat을 구입하면 문제없이 HTML로 변환됩니까? – Robert

+0

대부분의 경우 Acrobat은 pdf 이미지를 html 또는 word 형식으로 변환합니다. 그러나 나는 그것을 보장 할 수 없다. 나는 이와 같은 전환을 위해 곡예사를 사용했으며 대부분의 시간 동안 일했습니다. 실제로 귀하의 UlotkaCarefour.pdf를 UlotkaCarefour.doc로 acrobat을 사용하여 변환했으며 변환 된 html 파일은 아니지만 매우보기가 좋아 보입니다. 그러나 파일 크기는 62MB입니다. 핫메일 닷컴에있는 robbienvz에 저에게 연락하십시오. 거기에 파일을 보낼 수 있습니다. –

+0

대단히 감사합니다. 이메일을 보내드립니다. – Robert

관련 문제