lucene

1열

1답변

전체 텍스트 검색을 지원하려면 필드 ID와 msg를 lucene에 저장합니다. 사용자가 키워드를 입력하면 lucene은 검색을 수행하고 결과를 표시하고 사용자가 저장된 ID를 사용하여 키워드를 클릭하면 DB에서 결과를 가져 와서 표시 할 세부 정보를 엽니 다. lucene은 전체 msg 필드 대신 msg 필드에 역 색인을 저장하고 결과를 표시하기 위해 DB

1열

1답변

역 색인 형식의 lucene 인쇄

제 생각에 따르면 Lucene은 역 색인을 사용합니다. 내가 루씬 6.xx의를 사용하고 난 어떤 쉬운 방법에 대해 확실하지 오전하지만 해결책이없는 것보다 낫다 term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ..., do89> term1 <doc3, doc2, doc5, ...> . . .

0열

1답변

lucene의 문장 LIKE 기능

Lucene에서 SQL의 LIKE 기능을 복제하려고합니다. 나는 와일드 카드를 사용하여 검색하는 경우 말 "* 튤립 인 Riyadhh는 *"나는 다음과 같은 행동에 직면하고있어 : - 튤립 인 Riyadhhhss 일치 - 튤립 인 리야드 일치하지 않는 튤립 인 리야드 hhss - 튤립 매칭 - 01 매칭 - Riyadhh 일치 사실 "2"조건과 "4"조건이

0열

1답변

Solr pdf index 나쁜 요청

나는 pdf/docx 파일의 큰 폴더를 색인하고 검색 할 수있는 solr의 간단한 설정을하고 싶습니다. 나는 주로 전체 텍스트 검색이 필요하고 필드를 구분할 필요가 없으며 원본 문서는 구조가 잘 정의되어 있지 않은 것 같습니다.이 POSTing file G1504225.pdf (application/pdf) to [base]/extract SimplePo

2열

1답변

탄성 검색 유사성 discount_overlaps

나는 Elasticsearch 5.3.1을 사용하고 있으며 BM25 및 Classic TF/IDF를 평가하고 있습니다. 선택 사항 인 discount_overlaps 속성을 발견했습니다. 표준 계산시 오버랩 토큰 (0 위치 증가 토큰) 을 무시할지 여부를 결정합니다. 기본적으로 이는 사실이며, 겹치는 토큰 인 은 계산 규범에 포함되지 않습니다. 가능한 경우

1열

1답변

Solr을 사용하는 단락의 단락 일치

나는 국가/지역 이름 목록이 있습니다. ID : 국가 이름 : [벨리즈, 베냉, 부탄, 볼리비아, 보스니아, 보스니아 헤르체고비나, 보츠와나, 브라질, 브루나이] "나는 보스니아 헤르체고비나에 살고있는"내 쿼리 인 경우, 이상 일반적으로 "* Bosnia Herzegovina *", 그렇다면 을 쿼리 결과로보고 싶습니다. 나는 단 하나의 단어 국가만을 관리

1열

2답변

데이터베이스 열 값으로 열린 NLP를 사용하여 토큰 화 된 텍스트를 비교하는 방법은 무엇입니까?

내 Java 웹 응용 프로그램 (Jsp + Servlet + hibernate)에서 사용자는 책을 요청할 수 있습니다. 요청은 텍스트로 데이터베이스로 이동합니다. 그 후 Apache Open NLP를 사용하여 텍스트를 토큰 화합니다. 그런 다음이 토큰 화 된 텍스트를 books 테이블 (책 테이블은 책 ID, 책 이름, 작성자, 설명 있음)과 비교하여 가장

2열

1답변

lucene 색인 버전을 확인하는 방법은 무엇입니까?

나는 lucene 인덱스 버전을 결정해야하는 셸 스크립트 (csh)를 작성하고 있으며이를 기반으로 인덱스를 다음 버전으로 업그레이드해야한다. 그래서 lucene 인덱스가 2.x이면 인덱스를 3.x 으로 업그레이드해야합니다. 마지막으로 인덱스를 6.x로 업그레이드해야합니다. 업 그레 이드 인덱스는 순차적 인 프로세스이므로 (2.x-> 3.x-> 4.x-> 5

1열

1답변

Lucene 6에서 문서의 필드 표준을 얻는 방법은 무엇입니까?

Lucene을 통해 발견되는 다양한 문서의 COMBINED_FIELD 필드에있는 각 용어에 대해 필드 표준으로 정규화 된 TF-IDF 점수를 계산하려고합니다. 아래 코드에서 볼 수 있듯이 문서 필드에서 각 용어의 빈도를 구할 수 있으며 문서 빈도를 얻을 수도 있지만이 필드의 표준을 구할 수있는 방법을 찾을 수 없습니다. 질의 시간. 필자가 지금까지 발견 한

0열

1답변

여러 개의 이진 파일을 고유 한 solrDocument로 인덱싱

동일한 Solr ID에 대해 여러 개의 PDF 파일을 인덱싱하고 싶습니다. 우리의 프로젝트 중 하나, 우리는 다음과 같이 표현하는 일부 개체가 있습니다 {"id" : "object:1234", "authors" : ["me", "you", ...], "keywords": ["key1", "key3", ...], "files" : [ "/tm