2013-08-13 6 views
0

.NET에서 PDF 문서의 텍스트를 추출하려면 어떻게해야합니까? 또한 페이지에서 각 단어의 좌표를 어떻게 얻을 수 있습니까? iTextSharp 또는 다른 구성 요소로이 작업을 수행 할 수 있습니까?pdf에서 텍스트 및 단어 좌표를 추출하는 방법은 무엇입니까?

+0

iTextSharp는 가능성이 있지만, PDF 추출은 일반적으로 생각할 수있는 것처럼 쉽지 않습니다. pdf 내의 텍스트가 항상 예상되는 순서대로 나오지 않기 때문입니다. – citykid

+0

감사합니다 Citykid.we 같은 순서로 기대하지 않았다. 어떤 샘플 코드 또는 iTextSharp 사용하여 문서가 있습니까? – vinodh

+0

PDFbox로 가능합니까? – vinodh

답변

-1

작업은 Docotic.Pdf library의 도움으로 쉽게 수행 할 수 있습니다.

다음은 좌표와 함께 모든 단어를 시스템 콘솔에 쓰고 발견 된 각 단어 주위에 직사각형을 그리는 코드입니다. 그 외에는

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName) 
{ 
    using (PdfDocument pdf = new PdfDocument(inputFileName)) 
    { 
     PdfPage page = pdf.Pages[0]; 
     foreach (PdfTextData data in page.GetWords()) 
     { 
      System.Console.WriteLine(data.ToString()); 
      page.Canvas.DrawRectangle(data.Bounds); 
     } 

     pdf.Save(outputFileName); 
    } 

    System.Diagnostics.Process.Start(outputFileName); 
} 

, 라이브러리 포맷 추출 할 수있는 텍스트 (PdfPage.GetTextWithFormatting 방법) 또는 개별 문자 (PdfPage.GetChars 방법)

면책 조항 : 나는 라이브러리의 개발자 중 하나입니다.

+0

고맙습니다. mkl. iTextSharp를 사용하여 텍스트 pdf에서 텍스트와 단어 좌표를 추출하고 싶습니다. 아래에 언급 된 링크에서 pdf.for라는 텍스트를 업로드했습니다. pdf는 누구든지 단어 좌표를 찾을 수 있습니까? 나는 itextsharp에 대해 몰랐다. https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh

+0

고마워. Bobrovsky – vinodh

+0

위의 PDF 라이브러리는 무료이며 사용 허락되지 않은 것입니다. – vinodh

-3

그것이 내가이 일을 찾은 가장 좋은 도구입니다 PDFLib TET을 시도하지만 무료로하지 않습니다 (그리고 어쨌든 싼 아니다).

+0

고마워요. iTextSharp를 사용하여 텍스트 pdf에서 텍스트와 단어 좌표를 추출하고 싶습니다. 아래에 언급 된 링크에서 pdf.for라는 텍스트를 업로드했습니다. pdf는 누구든지 단어 좌표를 찾을 수 있습니까? itextsharp에 대해 잘 모른다 https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh

관련 문제