C#에서 두 개의 PDF 파일의 텍스트 내용을 확인하고 싶습니다.C#에서 두 개의 PDF 파일을 비교하는 가장 좋은 방법은 무엇입니까?
-4
A
답변
4
동일한 경우 이진 비교를 수행 할 수 있습니다. 문맥 비교를 위해 PDF 라이브러리가 필요할 것입니다. Here은 일부 라이브러리입니다.
0
쉬운 일은 아니지만 첫 번째 단계는 PDF에서 텍스트를 추출 할 수있는 적절한 PDF 라이브러리를 얻는 것입니다. 하나는 내가 사용한 ITextSharp http://itextpdf.com/ (오픈 소스)에서 사용할 수 있습니다. 그런 다음 DIffer: a reusable C# diffing utility and class library과 같은 diff 라이브러리를 사용해보십시오. 행운을 빕니다!
0
면책 조항 : Atalasoft에서 일합니다.
Atalasoft의 DotImage SDK은 C#의 PDF에서 텍스트를 추출하는 데 사용할 수 있습니다. PDF 파일이 이미 검색 할 경우 쉽게 텍스트를 얻을 수 있습니다 :
public String GetText(Stream s, int pageNum, int charIndex, int count)
{
using (PdfTextDocument doc = new PdfTextDocument(s))
{
PdfTextPage textPage = doc.GetPage(pageNum);
return textPage.GetText(charIndex, count);
}
}
그렇지 않으면, 당신은 이미지의 텍스트를 검출하기 위해 OCR 도구를 사용할 수 있습니다.
0
잠시만이지만이 기능은 저에게 효과적이었습니다 (그러나 보장은 없습니다 ... 이미지 나 다른 PDF가 포함 된 PDF에서이 기능을 사용했는지 기억이 안납니다). 파일에 GUID 또는 일종의 ID가 포함되어 있으므로이를 제거하고 다른 모든 것을 비교하면됩니다. 코드는 다음과 같습니다.
static bool ComparePDFs(string file1, string file2)
{
if (!File.Exists(file2))
return false;
int i;
string f1 = File.ReadAllText(file1);
string f2 = File.ReadAllText(file2);
if (f1.Length != f2.Length)
return false;
// Remove PDF ID from file1
i = f1.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file1);
else
f1 = f1.Substring(0, i) + f1.Substring(i + 75);
// Remove PDF ID from file2
i = f2.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file2);
else
f2 = f2.Substring(0, i) + f2.Substring(i + 75);
return f1 == f2;
}
관련 문제
- 1. C에서 두 개의 구조체를 비교하는 방법은 무엇입니까?
- 2. 두 개의 .mp4 파일을 비교하는 방법은 무엇입니까?
- 3. C#에서 두 DateTime의 동등성을 비교하는 가장 좋은 방법은 무엇입니까?
- 4. 두 엔티티 프레임 워크 엔티티를 비교하는 가장 좋은 방법은 무엇입니까?
- 5. Teradata에서 두 테이블의 내용을 비교하는 가장 좋은 방법은 무엇입니까?
- 6. 평등을 위해 두 값을 비교하는 가장 좋은 방법은 무엇입니까?
- 7. 두 개의 트리를 비교하는 방법은
- 8. 경고없이 두 개의 정수를 비교하는 방법은 무엇입니까?
- 9. 두 개의 검색어를 비교하는 방법은 무엇입니까?
- 10. 쉘 스크립트에서 두 파일을 비교하는 방법은 무엇입니까?
- 11. 원격 서버간에 파일을 비교하는 가장 좋은 방법은 무엇입니까?
- 12. 두 xml 파일을 xslt와 비교하는 방법은 무엇입니까?
- 13. 루프 내에서 항목을 비교하는 가장 좋은 방법은
- 14. 두 uint를 C에서 ulong으로 결합하는 가장 좋은 방법은 무엇입니까?
- 15. 두 URL을 비교하는 가장 빠르고 가장 빠른 방법은 무엇입니까?
- 16. ASP.NET에서 PDF 파일을 HTML로 변환하는 가장 좋은 방법은 무엇입니까?
- 17. Delphi 2009에서 PDF 파일을 표시하는 가장 좋은 방법은 무엇입니까
- 18. C에서 URL에서 csv 파일을 읽는 가장 좋은 방법은 무엇입니까
- 19. oracle diff : 두 테이블을 비교하는 방법은 무엇입니까?
- 20. C에서 비교하는 방법
- 21. Objective C에서 복식을 비교하는 방법은 무엇입니까?
- 22. 하루 중 두 시간을 비교하는 가장 좋은 방법은
- 23. 개체의 속성을 기반으로 두 개의 NSSets를 비교하는 방법은 무엇입니까?
- 24. 두 개의 TimeSpan 개체를 나누는 가장 좋은 방법은 무엇입니까?
- 25. 두 개의 링크를 세로로 표시하는 것이 가장 좋은 방법은 무엇입니까?
- 26. crm 프로젝트에서 두 개의 연락처를 병합하는 가장 좋은 방법은 무엇입니까?
- 27. 아이폰 SDK와 두 개의 이미지를 비교하는 방법은 무엇입니까?
- 28. C에서 두 비트 값을 비교하는 방법?
- 29. C에서 의사 결정을 실행하는 가장 좋은 방법은 #
- 30. 두 데이터베이스를 비교하는 방법은 무엇입니까?
어떻게 비교합니까? 그들은 동일하다는 것을 알기 위해? 차이점을 찾으려면? 다른 것? – Oded