좋은 하루처럼, 문서 검색 페이지
구글을 만들어 철저 인터넷 (이 사이트를) 검색 한하지만, (완전한) 답을 못 찾았 아직 내 자신의 솔루션을 구현할 수있게되지 않았습니다. Stackoverflow에 이미 게시 된 솔루션을 놓친 것 같습니다. 미리 사과 해줘.
저희 회사는 모든 수신 메일을 검사합니다. 그런 다음 ABBYY Finereader에서 OCR 데이터를 처리합니다. 이러한 모든 문서는 데이터 센터의 NAS에 있으며 WEBDAV 연결을 통해 액세스 할 수 있습니다. 내가 원한다면이 모든 파일을 색인화하고 (지금은 PDF 만 사용) 검색 가능하게 만들고 결과를 클릭하여 브라우저에서 해당 PDF 파일을 열어보기/다운로드 할 수있는 Google 검색 웹 사이트를 통해 액세스 할 수 있습니다. .
여기에 문제가 있습니다. SOLR/Tika를 설정하고 pdf 파일을 색인화하고 검색하여 결과를 찾을 수 있습니다. 스캔 한 문서가 저장된 폴더 전체를 인덱싱하는 가장 좋은 방법은 무엇입니까? 이상이 모든 것이 리눅스 서버에서 실행되므로이 디렉토리를 마운트 할 수 있습니다.
자동으로 색인이 생성되도록이 디렉토리에서 새 파일을 보는 방법은 무엇입니까?
파일을 루트 내의 (새) 디렉토리로 이동하거나 삭제/이름을 변경하고 색인을 자동으로 업데이트하는 경우 어떻게 파일을 추적합니까?
사용자의 프런트 엔드를 만드는 가장 좋은 방법은 무엇입니까? Solr/browse를 사용자 정의 할 수는 있지만 Rails를 사용하여 사이트를 구축하고 (간단히 말해서 친숙하기 때문에) Solr에 쿼리 데이터로 요청을 보내고 응답/배열을 반환하여 사용자.
마지막으로 중요하지는 않지만, 이 기능을 제공하는 상용 제품에 대한 좋은 제안이 있으면 누구나 들어보고 싶습니다. 나는 바퀴를 재발견 할 의사가 없지만 나의 수색은 나를 많이 이끌어주지 못했다.