Lucene.Net 및 C#을 사용하여 PDF 문서를 인덱싱하는 방법을 시연하는 샘플 코드를 찾고 있습니다. Google이 몇 군데 나타나지만 도움이 될만한 사람은 없습니다.Lucene.Net을 사용하여 PDF 파일을 어떻게 색인화 할 수 있습니까?
4
A
답변
5
내 이해에서 Lucene은 색인을 생성하고 색인을 검색하는 것으로 제한됩니다. 파일을 열고 색인의 내용을 추출하는 것은 응용 프로그램에 달려 있습니다. 따라서 PDF 문서를 검색하려면 iTextSharp과 같은 것을 사용하여 파일을 열고 내용을 추출한 다음 색인 생성을 위해 Lucene으로 전달하십시오. Dimecasts.net 웹 사이트에서 Lucene을 사용하는 좋은 시작 예제가 있습니다. (iTextSharp 사용)
+0
가능한 해결책은 실제로 작동한다는 실제적인 증거가 필요합니다. –
2
StringBuilder stringBuilder = new StringBuilder();
PdfReader pdfReader = new PdfReader(byte[] of the .pdf);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}
는
은 나머지로서 간결하게 도시되지 않는다.
내 사이트의 제품 데모에서 lucene.net 코드를 사용하는 방법을 보여주는 코드가 있지만 여기에 게시하는 데 약간 시간이 걸립니다. 대단히 감사합니다,
관련 문제
- 1. lucene으로 RDB를 색인화 할 수 있습니까?
- 2. Sphinx Search는 JSON 파일을 어떻게 색인화/처리합니까?
- 3. 어떻게 lucene에서/search +와 - symbol을 색인화 할 수 있습니까?
- 4. Lucene.net을 사용하여 페이징
- 5. lucene.net을 사용하여 폴더를 인덱싱하는 방법
- 6. Lucene.NET을 MVVM과 함께 사용할 수 있습니까?
- 7. ITextSharp (C#)를 사용하여 pdf 파일을 인쇄 할 수 있습니까? 그렇다면 어떻게?
- 8. 어떻게 파일을 sdcard에 표시 할 수 있습니까?
- 9. Lucene.Net을 사용하여 다른 검색 결과를 사용하여 검색
- 10. 여러 수준에서 div를 z- 색인화 할 수 있습니까?
- 11. 어떻게 qmake를 사용하여 재귀 적으로 파일을 복사 할 수 있습니까?
- 12. C#을 사용하여 파일을 어떻게 삭제 취소 할 수 있습니까?
- 13. 어떻게 lib 파일을 검사 할 수 있습니까?
- 14. .class 파일을 어떻게 테스트 할 수 있습니까?
- 15. .nfs 파일을 어떻게 복구 할 수 있습니까?
- 16. 어떻게 wpad.dat 파일을 디버깅 할 수 있습니까?
- 17. Perl에서 PDF 1.5 파일을 읽고 조작 할 수 있습니까?
- 18. 게시 할 때 .pdf 파일을 포함시킬 수 있습니까?
- 19. 어떻게하면 PDF 파일을 Java로 인쇄 할 수 있습니까? Swing
- 20. 순수한 html을 통해 pdf 파일을 다운로드 할 수 있습니까?
- 21. Flex 4로 복잡한 PDF 파일을 생성 할 수 있습니까?
- 22. J2ME에서 pdf 파일을 실행할 수 있습니까
- 23. lucene.net을 사용하여 색인 만들기 2.9.2.2
- 24. Synopse SynPDF 라이브러리를 사용하여 PDF 파일을 볼 수 있습니까?
- 25. Winform에서 PDF 인용 파일을 만들 수 있습니까?
- 26. 업로드 할 모든 파일의 경로가 포함 된 텍스트 파일을 사용하여 여러 파일을 업로드 할 수 있습니까?
- 27. 누구나 자바 스크립트를 사용하여 PDF 파일을 생성 할 수 있다고 말할 수 있습니까?
- 28. 어떻게 안드로이드에서 PDF 파일을 읽으시겠습니까?
- 29. 어떻게 자동으로 파일을 증가시키고 재설정 할 수 있습니까?
- 30. C, C++ 또는 Java (모든 언어)를 사용하여 PDF 파일을 HTML로 변환 할 수 있습니까?
공공 나는 * 대단하다 *을 해요 : https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs 사용자 이름/암호 : 여기
내 제품에 관한 같은 코드입니다. – gnovice알다시피, 나는 괴짜라는 용어를 선호한다. :) – PostMan
이 질문과 중복되는 부분은 http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net이거나보다 정확하게는 http : /tackoverflow.com/questions/83152/reading-pdf-documents-in-net/84410#84410 – Myster