lucene

    1

    1답변

    전체 텍스트 검색을 지원하려면 필드 ID와 msg를 lucene에 저장합니다. 사용자가 키워드를 입력하면 lucene은 검색을 수행하고 결과를 표시하고 사용자가 저장된 ID를 사용하여 키워드를 클릭하면 DB에서 결과를 가져 와서 표시 할 세부 정보를 엽니 다. lucene은 전체 msg 필드 대신 msg 필드에 역 색인을 저장하고 결과를 표시하기 위해 DB

    1

    1답변

    제 생각에 따르면 Lucene은 역 색인을 사용합니다. 내가 루씬 6.xx의를 사용하고 난 어떤 쉬운 방법에 대해 확실하지 오전하지만 해결책이없는 것보다 낫다 term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ..., do89> term1 <doc3, doc2, doc5, ...> . . .

    0

    1답변

    Lucene에서 SQL의 LIKE 기능을 복제하려고합니다. 나는 와일드 카드를 사용하여 검색하는 경우 말 "* 튤립 인 Riyadhh는 *"나는 다음과 같은 행동에 직면하고있어 : - 튤립 인 Riyadhhhss 일치 - 튤립 인 리야드 일치하지 않는 튤립 인 리야드 hhss - 튤립 매칭 - 01 매칭 - Riyadhh 일치 사실 "2"조건과 "4"조건이

    0

    1답변

    나는 pdf/docx 파일의 큰 폴더를 색인하고 검색 할 수있는 solr의 간단한 설정을하고 싶습니다. 나는 주로 전체 텍스트 검색이 필요하고 필드를 구분할 필요가 없으며 원본 문서는 구조가 잘 정의되어 있지 않은 것 같습니다.이 POSTing file G1504225.pdf (application/pdf) to [base]/extract SimplePo

    2

    1답변

    나는 Elasticsearch 5.3.1을 사용하고 있으며 BM25 및 Classic TF/IDF를 평가하고 있습니다. 선택 사항 인 discount_overlaps 속성을 발견했습니다. 표준 계산시 오버랩 토큰 (0 위치 증가 토큰) 을 무시할지 여부를 결정합니다. 기본적으로 이는 사실이며, 겹치는 토큰 인 은 계산 규범에 포함되지 않습니다. 가능한 경우

    1

    1답변

    나는 국가/지역 이름 목록이 있습니다. ID : 국가 이름 : [벨리즈, 베냉, 부탄, 볼리비아, 보스니아, 보스니아 헤르체고비나, 보츠와나, 브라질, 브루나이] "나는 보스니아 헤르체고비나에 살고있는"내 쿼리 인 경우, 이상 일반적으로 "* Bosnia Herzegovina *", 그렇다면 을 쿼리 결과로보고 싶습니다. 나는 단 하나의 단어 국가만을 관리

    1

    2답변

    내 Java 웹 응용 프로그램 (Jsp + Servlet + hibernate)에서 사용자는 책을 요청할 수 있습니다. 요청은 텍스트로 데이터베이스로 이동합니다. 그 후 Apache Open NLP를 사용하여 텍스트를 토큰 화합니다. 그런 다음이 토큰 화 된 텍스트를 books 테이블 (책 테이블은 책 ID, 책 이름, 작성자, 설명 있음)과 비교하여 가장

    2

    1답변

    나는 lucene 인덱스 버전을 결정해야하는 셸 스크립트 (csh)를 작성하고 있으며이를 기반으로 인덱스를 다음 버전으로 업그레이드해야한다. 그래서 lucene 인덱스가 2.x이면 인덱스를 3.x 으로 업그레이드해야합니다. 마지막으로 인덱스를 6.x로 업그레이드해야합니다. 업 그레 이드 인덱스는 순차적 인 프로세스이므로 (2.x-> 3.x-> 4.x-> 5

    1

    1답변

    Lucene을 통해 발견되는 다양한 문서의 COMBINED_FIELD 필드에있는 각 용어에 대해 필드 표준으로 정규화 된 TF-IDF 점수를 계산하려고합니다. 아래 코드에서 볼 수 있듯이 문서 필드에서 각 용어의 빈도를 구할 수 있으며 문서 빈도를 얻을 수도 있지만이 필드의 표준을 구할 수있는 방법을 찾을 수 없습니다. 질의 시간. 필자가 지금까지 발견 한

    0

    1답변

    동일한 Solr ID에 대해 여러 개의 PDF 파일을 인덱싱하고 싶습니다. 우리의 프로젝트 중 하나, 우리는 다음과 같이 표현하는 일부 개체가 있습니다 {"id" : "object:1234", "authors" : ["me", "you", ...], "keywords": ["key1", "key3", ...], "files" : [ "/tm