각 100 개의 문자열 요소로 구성된 10 개의 정렬되지 않은 목록이 있다고 가정 해보십시오. 어떤 목록이 다른 목록 또는 목록과 높은 중첩 정도 (예 : 50 % 이상)를 갖고 있는지, 그리고 어떤 목록이 중복되는지를 찾는 가장 빠른 방법은 무엇입니까?리스트가 n있는 경우 어떤 문자열 목록이 유사한지를 찾는 가장 효율적인 방법은 무엇입니까?
각각 10,000 개의 문자열로 이루어진 1,000,000,000 개의 순서가 지정되지 않은 목록으로 확장 한 경우는 어떻게됩니까? 이 목록을 식별하는 가장 효율적인 방법은 무엇입니까?
그건 의미가 있습니다. 나는 주로 이차 유형보다 더 빠른 방식으로 이러한 유형의 비교를 수행 할 수 있는지 궁금해하고있었습니다. 나는 그 질문이 광범위하다는 것에 동의하지만 이것은 이것이 나의 질문에 대한 추상적 인 질문 이었기 때문이다. 분석하려는 특정 문서 집합이 없습니다. 감사! – user7418754