.NET에서 PDF 문서의 텍스트를 추출하려면 어떻게해야합니까? 또한 페이지에서 각 단어의 좌표를 어떻게 얻을 수 있습니까? iTextSharp 또는 다른 구성 요소로이 작업을 수행 할 수 있습니까?pdf에서 텍스트 및 단어 좌표를 추출하는 방법은 무엇입니까?
답변
작업은 Docotic.Pdf library의 도움으로 쉽게 수행 할 수 있습니다.
다음은 좌표와 함께 모든 단어를 시스템 콘솔에 쓰고 발견 된 각 단어 주위에 직사각형을 그리는 코드입니다. 그 외에는
public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
using (PdfDocument pdf = new PdfDocument(inputFileName))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
System.Console.WriteLine(data.ToString());
page.Canvas.DrawRectangle(data.Bounds);
}
pdf.Save(outputFileName);
}
System.Diagnostics.Process.Start(outputFileName);
}
, 라이브러리 포맷 추출 할 수있는 텍스트 (PdfPage.GetTextWithFormatting 방법) 또는 개별 문자 (PdfPage.GetChars 방법)
면책 조항 : 나는 라이브러리의 개발자 중 하나입니다.
고맙습니다. mkl. iTextSharp를 사용하여 텍스트 pdf에서 텍스트와 단어 좌표를 추출하고 싶습니다. 아래에 언급 된 링크에서 pdf.for라는 텍스트를 업로드했습니다. pdf는 누구든지 단어 좌표를 찾을 수 있습니까? 나는 itextsharp에 대해 몰랐다. https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh
고마워. Bobrovsky – vinodh
위의 PDF 라이브러리는 무료이며 사용 허락되지 않은 것입니다. – vinodh
는
그것이 내가이 일을 찾은 가장 좋은 도구입니다 PDFLib TET을 시도하지만 무료로하지 않습니다 (그리고 어쨌든 싼 아니다).
고마워요. iTextSharp를 사용하여 텍스트 pdf에서 텍스트와 단어 좌표를 추출하고 싶습니다. 아래에 언급 된 링크에서 pdf.for라는 텍스트를 업로드했습니다. pdf는 누구든지 단어 좌표를 찾을 수 있습니까? itextsharp에 대해 잘 모른다 https://docs.google.com/file/d/0B_nzYHWVJJ7KQ0dPLWdyS2FBWUk/edit?usp=sharing – vinodh
- 1. pdf에서 워드 좌표를 추출하는 라이브러리/도구
- 2. pdf 파일에서 텍스트 및 텍스트 좌표를 추출하는 방법은 무엇입니까?
- 3. PDF에서 데이터를 추출하는 방법은 무엇입니까?
- 4. iOS PDF에서 모든 단어 좌표를 얻는 방법
- 5. mupdf를 사용하여 pdf에서 이미지를 추출하는 방법은 무엇입니까?
- 6. PDF에서 임베디드 OCR 데이터를 추출하는 방법은 무엇입니까?
- 7. mupdf를 사용하여 pdf에서 텍스트를 추출하는 방법은 무엇입니까?
- 8. PDF에서 디지털 서명을 추출하는 방법은 무엇입니까?
- 9. PHP에서 preg_split()을 사용하여 단어 및 구문을 추출하는 방법은 무엇입니까?
- 10. 개체에서 2 단어 필드를 추출하는 방법은 무엇입니까?
- 11. 올바른 순서로 iText를 사용하여 PDF에서 이미지를 추출하는 방법은 무엇입니까?
- 12. 디지털 서명 된 PDF에서 첨부 파일을 추출하는 방법은 무엇입니까?
- 13. .pdf에서 텍스트 복사를 해제하는 무료 방법은 무엇입니까?
- 14. Ghostscript 또는 ImageMagick을 사용하여 PDF에서 이미지를 추출하는 방법은 무엇입니까?
- 15. 파이썬에서 poppler 라이브러리를 사용하여 pdf에서 이미지를 추출하는 방법은 무엇입니까?
- 16. PDF에서 지정된 내용을 추출하는 방법
- 17. pdf에서 텍스트 추출의 개행
- 18. PDf에서 문자열로
- 19. PDF에서 텍스트를 추출하는 알고리즘 (뒤죽박죽으로 재 배열 된 텍스트 레이아웃)
- 20. .net에서 PDF에서 값을 추출하는 방법 C#
- 21. AvalonEdit 컨트롤에서 텍스트 좌표를 변경하는 방법은 무엇입니까?
- 22. Shapely를 사용하여 내부 폴리곤 좌표를 추출하는 방법은 무엇입니까?
- 23. 형식으로 PDF에서 텍스트 추출
- 24. 텍스트 파일에서 데이터를 추출하는 방법은 무엇입니까?
- 25. 이미지 좌표를 pdf로 JSONfile로 가져 오는 방법은 무엇입니까?
- 26. PDF에서 텍스트 내용 추출
- 27. 선택한 영역 또는 좌표의 PDF에서 텍스트 및 이미지 추출
- 28. 웹 페이지에서 텍스트 콘텐츠를 추출하는 방법은 무엇입니까?
- 29. HTML 페이지에서 텍스트 블록을 추출하는 방법은 무엇입니까?
- 30. 프레임의 텍스트 영역을 추출하는 방법은 무엇입니까?
iTextSharp는 가능성이 있지만, PDF 추출은 일반적으로 생각할 수있는 것처럼 쉽지 않습니다. pdf 내의 텍스트가 항상 예상되는 순서대로 나오지 않기 때문입니다. – citykid
감사합니다 Citykid.we 같은 순서로 기대하지 않았다. 어떤 샘플 코드 또는 iTextSharp 사용하여 문서가 있습니까? – vinodh
PDFbox로 가능합니까? – vinodh