큰 수의 큰 파일에서 중복을 제거하는 방법은 무엇입니까? 이것은 sort -u
이 아닌 알고리즘 및 데이터 구조에 관한 인터뷰 질문입니다.파일에서 중복 항목을 제거하는 방법은 무엇입니까?
파일이 메모리에 들어 가지 않으며 숫자 범위가 충분히 커서 인 - 메모리 개수/버킷 정렬을 사용할 수 없다고 가정합니다.
유일한 옵션은 파일을 정렬 (예 : merge sort
)하고 분류 된 파일을 다시 전달하여 중복 파일을 필터링하는 것입니다.
의미가 있습니다. 다른 옵션이 있습니까?
입력에 대해 더 많이 알수록 알맞은 알고리즘을 선택/개발할 수있는 위치가 좋습니다. – greybeard