2012-08-29 5 views
1

검색을 위해 데이터가 lucene을 통해 인덱싱되는 사용 사례가 있습니다. 12 시간마다 현재 색인이 zip에 보관되고 새 색인이 새로 시작됩니다. 데이터 유입 속도가 꽤 빠르기 때문에 저장을 돕기 위해 압축을 수행해야합니다. 검색하는 동안 압축 및 압축 해제를 위해 java.util.zip을 사용합니다.lucene 인덱스 보관

이제 문제는 지난 한 주 동안 데이터를 검색하는 경우 문제가 발생합니다. 압축을 풀려면 많은 시간이 필요합니다. 어떤 사람이 나에게 좀 더 빠르고 더 좋은 압축을 풀 수 있다고 제안 할 수 있다면 좋을 것입니다. 나는 7-zip의 LZMA를 고려하고 있지만 일부 입력은 유용 할 것입니다. 동시에, 올바른 접근법을 압축하고 있습니까? 내가 선택할 수 있니? 우리는 자바 코드베이스를 가지고 있으며 당신의 입력을 기다리고 있습니다.

+0

당신이 모든 요청에 ​​과거 12 시간 인덱스의 압축을 해제하는와 LZMA? – jpountz

+0

아니요! 필요가 생길 때. 사용자가 100 개의 결과를 묻는다면 첫 번째 색인에서 100을 얻습니다. 그러지 않아도됩니다. 그가 200 페이지로 페이지를 변경하고 공개 색인에서 원하는 결과를 얻지 못하면 아카이브를 열어야합니다! – Greenhorn

답변

4

LZMA는 더 나은 압축을 가지고 있지만 더 느리게 압축을 해제합니다.

빠른 압축 풀기를 위해 다른 방향으로 가고 좋지 않은 압축을 허용 할 수 있습니다. 당신은 lz4을 볼 수 있습니다. 그것은 약 4 ~ 5 배 빠른 압축을 풀지 만 약 50 % 더 압축됩니다 (마일리지가 다를 수 있음). lz4에는 높은 압축 (HC) 모드가 있지만 압축 시간이 더 오래 걸리고 성능은 좋지만 압축률은 매우 빠릅니다.

관련 문제