2014-10-22 2 views
0

좋은 하루처럼, 문서 검색 페이지

구글을 만들어 철저 인터넷 (이 사이트를) 검색 한하지만, (완전한) 답을 못 찾았 아직 내 자신의 솔루션을 구현할 수있게되지 않았습니다. Stackoverflow에 이미 게시 된 솔루션을 놓친 것 같습니다. 미리 사과 해줘.

저희 회사는 모든 수신 메일을 검사합니다. 그런 다음 ABBYY Finereader에서 OCR 데이터를 처리합니다. 이러한 모든 문서는 데이터 센터의 NAS에 있으며 WEBDAV 연결을 통해 액세스 할 수 있습니다. 내가 원한다면이 모든 파일을 색인화하고 (지금은 PDF 만 사용) 검색 가능하게 만들고 결과를 클릭하여 브라우저에서 해당 PDF 파일을 열어보기/다운로드 할 수있는 Google 검색 웹 사이트를 통해 액세스 할 수 있습니다. .

여기에 문제가 있습니다. SOLR/Tika를 설정하고 pdf 파일을 색인화하고 검색하여 결과를 찾을 수 있습니다. 스캔 한 문서가 저장된 폴더 전체를 인덱싱하는 가장 좋은 방법은 무엇입니까? 이상이 모든 것이 리눅스 서버에서 실행되므로이 ​​디렉토리를 마운트 할 수 있습니다.

자동으로 색인이 생성되도록이 디렉토리에서 새 파일을 보는 방법은 무엇입니까?

파일을 루트 내의 (새) 디렉토리로 이동하거나 삭제/이름을 변경하고 색인을 자동으로 업데이트하는 경우 어떻게 파일을 추적합니까?

사용자의 프런트 엔드를 만드는 가장 좋은 방법은 무엇입니까? Solr/browse를 사용자 정의 할 수는 있지만 Rails를 사용하여 사이트를 구축하고 (간단히 말해서 친숙하기 때문에) Solr에 쿼리 데이터로 요청을 보내고 응답/배열을 반환하여 사용자.

마지막으로 중요하지는 않지만, 이 기능을 제공하는 상용 제품에 대한 좋은 제안이 있으면 누구나 들어보고 싶습니다. 나는 바퀴를 재발견 할 의사가 없지만 나의 수색은 나를 많이 이끌어주지 못했다.

답변

0

한 번에 너무 많은 질문을하고 있습니다. 그래서 추격 할 수있는 포인터를 얻고 잘하면 다른 사람에게도 유용 할 것입니다.

  1. 당신은 "SOLR/찾아보기를 사용자 정의 할 수 없습니다"- SOLR은 사용자 응용 프로그램에 직접 노출 안전하지
  2. 당신은 데리러 FileListEntityProcessor (= 거짓 rootEntity로)를 사용하여 중첩 된 엔티티 DataImportHandler (다이 하이드로)를 사용할 수 있습니다 파일과 TikaEntityProcessor 내부에 파일 묶음의 색인을 생성합니다. 그러나 제거 된 파일을 삭제하는 데는 도움이되지 않습니다. 어쩌면 당신은 스텁 파일이나 비슷한 것을 필요로 할 것입니다.
  3. ManifoldCF는 SOLR를 사용하며, 파일 시스템 어댑터가
  4. Lucidworks 내부 SOLR와 상용 제품은 다이 하이드로보다 더 똑똑 할 수 그리고 아마도 파일 시스템 어댑터 및 기타 기능의 큰 숫자를 가지고 당신이
  5. Cloudera 볼 수있는 광고입니다 제품에 큰 데이터 파이프 라인 (문서 손상 포함)이 있으며 Solr을 사용합니다. 중요한 점은 Hue으로 사전 구성되어있어 최소한 버전 버전의 인터페이스를 제공 할 수 있습니다.