solr-cell

0열

1답변

Solr은 그 결과로 공급 된 HTML 문서의 형식을 유지할 수 있습니까?

Solr이 제공 한 결과에서 HTML 문서의 원본 서식을 어떻게 유지합니까? 수백만 개의 문서가 있고 비슷한 서식이없는 회사 웹 사이트 중 하나에서 검색 기능을 제공하려고합니다. 따라서 각 문서를 개별적으로 서식을 지정하기가 어렵습니다. solr-cell 및 tika에 대한 내장 지원이있는 아파치 사이트에서 Solr 4.1 nightly builds을 사용

1열

1답변

ExtractingRequestHandler ("Solr Cell")에서 최대 문자열 길이 설정. setMaxStringLength()

Solr 및 ExtractingRequestHandler를 사용하여 문서를 색인화하지만 Tika setMaxStringLength()와 동일한 작업을 수행하는 방법을 모르겠습니다. 그것은 (-1) 는이 값을 설정할 수는 tika.setMaxStringLength 설정 아니에요 것을 의미 할 수있는 큰 문서의 텍스트의 모든 작은 문서의 모든하지만 색인 것으로

0열

1답변

solr extractionrequesthandler는 org.apache.solr.request.SolrRequestHandler가 아닙니다.

post.jar를 사용하여 pdf 파일이있는 폴더의 색인을 생성하려고합니다. requesthandler를 추가했지만 시작시 오류가 발생합니다. 버전 충돌 또는 중복 클래스로드 일 수 있으므로 SolrRequestHandler로 인식되지 않습니다. 그냥 생각이야. iis를 사용하는 Windows 2008 R2 서버에서 solr 3.4를 실행하고 있습니다. C

0열

2답변

SOLR Cell은 문서 내용을 어떻게 추가합니까?

SOLR에는 Cell이라는 모듈이 있습니다. Tika를 사용하여 문서에서 내용을 추출하고 SOLR로 색인화합니다. https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction의 출처에서 Cell은 추출 된 원시 텍스트 문서 텍스트를 "content"라는 필드에 배치한다고 결론을 내립니다

2열

3답변

solr에서 pdf의 검색 결과 페이지 번호 가져 오기

사용자가 pdf 문서를 검색하고 pdf.js.에서 볼 수있는 웹 애플리케이션을 구축 중입니다. 검색어가있는 곳의 단락과 오른쪽 페이지에서 문서를 여는 링크가있는 검색 결과를 표시하고 싶습니다. 그래서 내가 필요로하는 것은 모든 검색 결과의 페이지 번호와 짧은 텍스트 스 니펫입니다. 저는 PDF 문서를 색인하기 위해 SOLR 4.1을 사용하고 있습니다. 색인

0열

1답변

Solr 검색 엔진 결과

solr 검색 엔진의 쿼리 상자에 쿼리를 작성하고 결과를 묻는 경우 몇 개의 문서가 발견 (numFound)되지만 페이지 당 10 개의 문서 만 표시됩니다. 추가로 검색된 문서를 보는 방법. "다음 페이지"또는 다른 어떤 것 같은 링크가 없습니다.

3열

2답변

Solr 4.0+를 사용하여 데이터베이스 BLOB로 포함 된 리치 형식의 문서를 어떻게 인덱싱합니까?

이 문제에 대한 몇 가지 관련 솔루션을 발견했습니다. 내가 설명 할 것처럼 관련 솔루션이 나를 위해 작동하지 않습니다. (Solr 4.0과 Oracle 11g 데이터베이스에 저장된 색인 데이터를 사용하고 있습니다.) Jonck van der Kogel의 관련 솔루션 (2009 년)은 here으로 설명되어 있습니다. 그는 Solr과 함께 제공되는 ClobTr

0열

1답변

spring-data-solr과 Tika를 통합하는 방법이 있습니까?

구성을 통해 Tika에서 spring-data-solr을 사용하는 방법이 있습니까? 그렇지 않으면 spring-data-solr에 대한 solrj의 ContentStreamUpdateRequest+addfile에 대한 대안이 있습니까? 현재 나는이 방식으로 Solrj + 티카를 사용하고 는 : SolrServer server = new HttpSolrSer

0열

1답변

Solr 메타 데이터 색인

저는 Solr에 익숙하며 데이터베이스에 저장된 URL을 통해 이진 파일에서 메타 데이터를 추출하고 있습니다. PDF에서 색인 생성에 사용할 수있는 필드 (column = ""로 시작되는 필드)를 알고 싶습니다. 또한 Solr에서 사용자 정의 필드를 작성하는 방법을 알고 싶습니다. 어떻게 구현되고 파일에서 오는 특정 메타 데이터에 매핑됩니다. 누군가가 나를

0열

1답변

Solr - Solr Cell을 통해 인덱싱 된 인덱스 바이너리 파일에 메타 데이터를 추가하는 방법은 무엇입니까?

사용자가 Solr을 사용하여 파일을 검색 할 수있는 PHP 앱을 만들고 있습니다. 이것은 주로 앱이 Word 문서 및 PDF의 콘텐츠 검색을 필요로하기 때문입니다. 이 앱은 또한 MySql 데이터베이스를 사용하여 파일을 추적합니다. 모든 파일을 집중 색인으로 만드는 가장 좋은 방법은 (아마 약 20,000 개) 특정 디렉토리의 모든 파일을 반복하는 PHP