텍스트의 각 숫자에 대한 용어를 만드는 것이 좋습니까? 예 텍스트 :Lucene에서 많은 수의 텍스트 색인 생성
I got 2295910 unique terms.
숫자는 타임 스탬프, 포트 번호, 무엇이든 할 수있다. 고유 번호는 매우 많은 수의 고유 용어로 이어집니다. 문서와 동일한 수의 고유 용어를 사용하는 것이 옳다고 생각하지 않습니다. Lucene memory usage grows with the number of unique terms.
숫자가있는 텍스트의 경우 특수 분석기 또는 트릭이 있습니까? StandardAnalyzer는 각 고유 번호에 대한 용어를 만듭니다.
필요 사항은 :
번호는 검색이 남아 있어야한다. 문서에 여러 개의 숫자가있을 수 있습니다. 메모리 사용이 문제입니다. 나는 다수 색인 전화 번호부에있는 800M 문서가있다. 메모리 사용량에 따라 가장 최근에 사용하지 않은 IndexSearchers가 닫힙니다.
테스트되지 않은 아이디어 :
- 특별한 분석기를 사용합니다. 숫자를 덩어리로 나눕니다. 123456은 "123 456"이됩니다. 쿼리 구문 분석기는 구 검색을 사용하여 숫자를 찾습니다.
- 숫자 용어를 볼 때 더 큰 termInfosIndexDivisor를 사용하도록 Lucene 코드를 변경하십시오.
어쩌면 나는 바퀴를 재발 명하고있다. 이미 누군가에 의해 해결 되었습니까?
확인. 색인에 많은 고유 용어가있는 것이 좋다고 생각합니다. 더 큰 termInfosIndexDivisor는 메모리 사용을 줄이는 데 도움이됩니다. –