bloom-filter

1열

1답변

BloomFilter를 구현 중이며 [0, N] 개 요소를 추가 한 다음 필터에 (n, oo) 개의 요소가 포함되어 있는지 확인하여 오탐을 계산해야합니다. 잘못된 양의 정확한 수를 계산하는 데 문제가 있습니다. 필자의 루프에서는 매번 possiblecontains()가 필터에 (n, oo)의 요소를 포함하고 있다고 말하면서 오 탐지에 추가합니다. 하지만 1

2열

1답변

간단한 중복 블록 찾기 알고리즘은 조회를 위해 BloomFilter를 사용할 때 성능이 저하됩니다.

두 개의 ISO 파일을 하나의 파일로 연결했습니다. 개별 ISO 파일은 모두 동일한 공급 업체이지만 다른 버전의 Linux 배포판입니다. 내가 작성한 프로그램 (아래에 표시)에서 512 바이트 블록으로 연결된 파일을 연결하고 MD5sum을 계산합니다. MD5sum은 Hashet<String>에 저장됩니다. 동일한 서명을 가진 블록이 HashSet 룩업을 사

1열

1답변

Spark and BloomFilter sharing

거대한 RDD (소스)가 있고 그 중 BloomFilter 데이터를 만들어야하므로 사용자 데이터의 후속 업데이트는 중복이없는 진정한 "diffs"만 고려합니다. 블룸 필터의 구현의 대부분이 비 직렬화처럼 (즉 쉽게하지만 고정 할 수 있습니다) 같은데,하지만 난 약간 다른 워크 플로우 원하는 : 프로세스의 모든 파티션을 적절한 블룸 필터의 인스턴스를 생성 각

0열

1답변

열 수 없습니다 파일을 포함하지 않음 파일 또는 디렉토리

내가 창문 pybloomfiltermmap를 설치하려고이 오류가 무엇입니까 : 나는이 문제를 해결하기 위해 기쁘게 할 방법 src/mmapbitarray.c(4) : fatal error C1083: Cannot open include file: 'sys/mman.h': No such file or directory error: command 'C:\Use

1열

1답변

Cuckoo 필터 : 왜 정확히 7 카운트입니까? (엔티티 삽입의 "제한된 수"와 같습니다.)

저는 지난 며칠 동안 뻐꾸기 필터를 사용하여 머리를 감싸 주려고했습니다. 블룸 필터보다 여러면에서 장점이 있다는 것을 알고 있으며 일반적으로 사용하는 것이 좋습니다 (일반적으로 사용할 수있는 경우). 내가 찾고있는 응용 프로그램에 대한 계산이 필요합니다. 어디서나 정보를 찾을 수없는 이유는 뻐꾸기 필터에 "제한된 계산"이 정확히 존재하는 이유입니다. (나는

2열

1답변

Lucene.Net 비트 필터 블룸 필터

lucene있는 경우 "blom"필드가있는 문서가 바이트 배열입니다 [0 1 0 1 1 1 1]이 문서에 대한 쿼리를 수행하는 방법이 있습니다 andquery (값 : [1 1 1 1 1 1 1], 일치 : [1 1 1 1 1 1 1 1])와 같은 비트 연산이나 orquery, notquery 등의 필드를 사용합니다. 대용량의 해시 (블룸 필터)를 효율적으

0열

1답변

K- 길이의 문자열에 Minhashing

비슷한 항목을 찾기 위해 Bloom Filters와 Minhashing을 구현해야하는 애플리케이션이 있습니다. 내가 블룸 필터가 구현해야하지만 난 그것을 수행 할 Minhashing 부분을 이해하고 있는지 확인해야합니다 : 모든, aplication 문서에서 K-길이 문자열 저장을의 숫자를 생성 그 중 하나가 Bloom에 삽입됩니다. 여기서 MinHash를

0열

1답변

블룸 필터의 대안

나는 회원 테스트 수행을 위해 블룸 필터를 사용해 보았습니다. 저는 약 100 회의 충돌 만 허용하면서 800 억 개의 항목에 대한 멤버십 테스트를 수행하고자합니다. 즉, 100 개의 항목 만 잘못된 결과를 얻을 수 있습니다. 블룸 필터에 의해 달성 될 수 있지만 입력 당 필요한 비트 수와 허위 양수 율이 허용되는 해시 함수의 수를 결정하는 공식을 사용한다

0열

1답변

시간 범위 분석에서 순 방문자수를 셉니까?

시간 범위 (시간 단위)에 걸쳐 앱의 순 방문자수를보고하려는 유스 케이스가 있습니다. 예 : 0시에 {A, B, C, D}의 방문자를 추적했으며 시간 1에 {C, D, E, F}가 있다고 가정하고 2시에는 {E, F, A , B} 그리고 3시에는 {A, C}가 있습니다. 1 시간에서 3 시간 사이에 몇 명의 순 방문자가 있었는지에 대한 답변을해야하며 동시에

0열

1답변

cassandra의 블룸 필터 추출하기

나는 다른 서비스에 의해 질의되는 cassandra 서버를 가지고 있으며 질의 양을 줄여야합니다. 제 생각에는 처음 몇 분마다 전체 데이터베이스의 블룸 필터를 만들어 서비스에 보냈습니다. 하지만 몇 백 테라 바이트로 증가 할 것으로 예상되는 데이터베이스에 수 백 기가 바이트가 있기 때문에 몇 분마다 데이터베이스에 과부하가 걸리지 않는 것처럼 보입니다. 더