bloom-filter

    3

    2답변

    메모리에 들어갈 수없는 매우 큰 데이터 집합이 있고 데이터 집합에 수백만 개의 레코드가 있고 중복 행을 제거하려고한다고 가정합니다. 중복) 공간과 시간의 복잡성 측면에서 가장 효율적인 접근 방법은 무엇입니까? 내가 생각 무엇 : 이 꽃 필터를 1.Using, 나는 그것을 구현 어떻게 확실하지 않다,하지만 난 그게 정말이라면 부작용은 우리가 찾을 수있는 방법

    4

    1답변

    일부 성능 집약적 인 코드를 작성 중이며이를 개선하기위한 방법에 대한 cythonistas의 의견을 기다리고 싶습니다. 필자가 작성한 기능의 목적은 설명하기가 다소 힘듭니다. 그러나 그들이하는 일은 그 모든 것을 위협하는 것이 아닙니다. 첫 번째 (대략)는 두 개의 사전 목록을 가져와 숫자 목록의 사전 하나를 얻기 위해 숫자 목록에 합류합니다. 그것은 단지

    0

    1답변

    레일 애플리케이션을 개발 중입니다. 나는 정적 인 제목 (약 3.5M)의 큰 데이터 세트를 가지고 있는데, 나는 많은 것을 찾고있다. 지금 데이터 세트는 내 PostgreSQL 데이터베이스에 저장되어 있으며 postgres의 인덱스와 text_pattern_ops을 사용하여 검색하고 있습니다. 이것은 꽤 빠르지 만, 검색 량이 급격히 늘어나기 때문에 규모가

    0

    4답변

    로그 수신 서비스에서 중복 메시지를 제거하기 위해 구아바 블룸 필터를 사용하고 있습니다. 구아바 캐시가 만료되는 것처럼 블룸 필터가 만료되는 방법이 있습니까?

    1

    1답변

    현재 블룸 필터를 연구 중입니다. 블룸 finlers에 대한 블로그의 대부분을 겪어 왔지만 조인 경우에 대한 예를 알아낼 수 없다는 것을 알고 있습니다. 모든 기사는 네트워크 I/O를 줄이겠다 고 말하고 있지만 그 중 아무도 어떻게 표시하지 않습니까? 특정 하나는 좋은 http://vanjakom.wordpress.com/tag/distributed-cac

    1

    2답변

    일부 블룸 필터 변형을 구현하고 있으며 매우 유용한 데이터 구조는 소형 멀티 비트 배열입니다. 즉, 각 요소가 약 4 비트의 컴팩트 한 정수인 배열입니다. 공간 효율성이 여기에서 가장 중요합니다. 평범한 정수 배열은 내가 원하는 기능을 제공하지만 필요한 것보다 더 부피가 클 것입니다. 비트 산술로이 기능을 직접 구현하기 전에 누구나 이미 이러한 데이터 구조

    1

    1답변

    매우 큰 데이터 트리가있는 매우 큰 데이터 데이터베이스 (10 억 개 이상의 행)의 경우 가장 효율적인 구조는 무엇입니까? 읽기로드가 가장 많이 사용되지만 정기적으로 트리가 변경됩니다. 데이터 트리를 나타내는 몇 가지 표준 알고리즘이 있습니다. 나는이 요약을 몽고 매뉴얼의 일부로 훌륭한 요약본으로 발견했다 : http://docs.mongodb.org/ma

    0

    1답변

    블룸 필터에 대한 해시 함수를 연구하고 조정한다고 가정하면, "빠른"것으로 널리 받아 들여질 수있는 함수를 사용하여 해시를 계산하는 데 필요한 최대 사이클 수는 얼마입니까?

    1

    1답변

    https://github.com/joeyrobert/bloomfilter은 해시 함수에 대해 임의의 클래스 인 performance killer을 사용합니다. 난 할 노력하고있어 입력 바이트와 클래스 [] 대신 일반적인 인수 (T)의 S와 I가 큰 성능상의 이점이 알고 private int Hash(T item) { return item.Get

    -1

    2답변

    고유 한 숫자가 1,000,000 개 있습니다. 숫자는 0에서 50,000,000 사이의 간격에 있습니다. 숫자는 무작위입니다. 그들 모두를 수용 할 수있는 데이터 구조가 필요합니다. 데이터 구조에는 가능한 한 적은 메모리가 필요합니다. 숫자가 오류없이 세트에 있는지 빠르게 확인할 수 있어야합니다. 블룸 필터가있는 솔루션을 찾았습니다. 예, 블룸 필터는 오