2009-08-14 4 views
4

Lucene.Net 및 C#을 사용하여 PDF 문서를 인덱싱하는 방법을 시연하는 샘플 코드를 찾고 있습니다. Google이 몇 군데 나타나지만 도움이 될만한 사람은 없습니다.Lucene.Net을 사용하여 PDF 파일을 어떻게 색인화 할 수 있습니까?

+0

공공 나는 * 대단하다 *을 해요 : https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs 사용자 이름/암호 : 여기

내 제품에 관한 같은 코드입니다. – gnovice

+0

알다시피, 나는 괴짜라는 용어를 선호한다. :) – PostMan

+0

이 질문과 중복되는 부분은 http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net이거나보다 정확하게는 http : /tackoverflow.com/questions/83152/reading-pdf-documents-in-net/84410#84410 – Myster

답변

5

내 이해에서 Lucene은 색인을 생성하고 색인을 검색하는 것으로 제한됩니다. 파일을 열고 색인의 내용을 추출하는 것은 응용 프로그램에 달려 있습니다. 따라서 PDF 문서를 검색하려면 iTextSharp과 같은 것을 사용하여 파일을 열고 내용을 추출한 다음 색인 생성을 위해 Lucene으로 전달하십시오. Dimecasts.net 웹 사이트에서 Lucene을 사용하는 좋은 시작 예제가 있습니다. (iTextSharp 사용)

+0

가능한 해결책은 실제로 작동한다는 실제적인 증거가 필요합니다. –

2
StringBuilder stringBuilder = new StringBuilder(); 

PdfReader pdfReader = new PdfReader(byte[] of the .pdf); 

for (int page = 1; page <= pdfReader.NumberOfPages; page++) 
{ 
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " "); 
} 

은 나머지로서 간결하게 도시되지 않는다.

내 사이트의 제품 데모에서 lucene.net 코드를 사용하는 방법을 보여주는 코드가 있지만 여기에 게시하는 데 약간 시간이 걸립니다. 대단히 감사합니다,

관련 문제