많은 Java 등록 정보 및 매니페스트 파일을 색인화해야합니다.인덱싱 등록 정보 파일
파일의 데이터는 키 - 값 쌍입니다.
나는 이것을 위해 Lucene을 사용하려고 생각하고 있습니다.
그러나 데이터가 상당히 구조화되어 있으므로 실제 전체 검색 기능이 필요하지 않습니다. 속성 값의 정확한 일치를 검색하기 만하면되며 속성 키는 항상 알려져 있습니다. 토큰화할 필요가 없으며 "기본"필드도 없습니다. 고유 한 등록 정보 키의 수가 꽤 클 수 있습니다.
또한 나는 (RAMDirectory가 될 Lucene에서) 인덱스를 전체적으로 메모리에 유지할 수 있기를 바랍니다.
그래서 Lucene (주로 전체 텍스트 검색 엔진)은 여전히 좋은 성냥입니까? 그렇지 않으면 더 잘 맞는 것이 있습니까?
업데이트 : 그것은 트리플을 유지하기 위해 적어도 중첩의 HashMap (값, 키가 될 필요가 값 B. 재산 A를 정의하는 파일을 찾으려하기 때문에 간단한의 HashMap는하지 않을 것이다 , 파일 이름).
키 - 값 쌍의 수가 메모리 내 해시 맵을 제외 할만큼 충분히 큽니까? 그들을 임베디드 SQL 서버로 인덱스 할 수 있습니다. – akarnokd
그래, 난 내장 된 SQL에 대해 생각했다. 문제는 키를 열로 사용할 수 없다는 것입니다. 숫자가 많아서 키 값이 미리 알려지지 않았기 때문에 키 - 값 매핑 테이블 일 필요가 있기 때문입니다. – Thilo
키를 열로 사용하는 이유는 무엇입니까? 그냥 (파일, 키, 값) 삼중 항을가집니다. – akarnokd