매우 큰 데이터 세트로 작업하고 있습니다. 필자는 본질적으로 수백만 개의 레코드로 작업하고 값을 데이터 세트에 저장합니다.효율성 : 어떤 데이터 구조를 사용해야합니까?
값을 저장할 때마다 먼저 값이 데이터 구조에 없는지 확인해야합니다. 값이 데이터 구조에 있으면 레코드를 업데이트 (또는 제거/추가)하여 개수를 업데이트해야합니다.
데이터 집합 내에 반복이 있으며, 나쁜 데이터 구조를 사용하고 O (n) 속도를 얻고 싶지 않습니다.이 작업을 밤새 실행할 수 있기를 원합니다. 그것을 끝내는 아침!
어떤 조언이 필요합니까?
플랫폼 및 언어는 무엇입니까? 균형 잡힌 나무와 같은 일부 솔루션은 작성하기가 어색하지만 라이브러리에 있으면 훌륭하게 작동 할 수 있습니다. –