2014-07-20 3 views
2

큰 크기 때문에 7 개의 다른 CSV 파일에 무작위로 7 백만 ID를 저장했습니다. 이제 1 백만 ID가있는 7 개의 CSV 파일을 갖고 싶습니다. 내가 7 개의 CSV 파일에서 중복 ID를 확인하려고합니다. 이것이 java에서 할 수있는 방법이 있습니까?csv 파일에서 중복 행을 확인합니다. -

답변

1

자바를 사용하는 유일한 방법은 700 만 ID를 모두 메모리에로드하는 것입니다. 세트에 넣을 수 있으며 파일에서로드 할 새 ID마다 세트에 이미 있는지 확인하십시오. 나는 당신이 그때 중복없이 출력 파일을 써야 할 것이라고 가정하고있다.

나는 자바로하지 않을 것이다. 간단한 유닉스/리누스 셸 스크립트가 트릭을 수행 할 것입니다 (cat file1 file2 file3 file4 file5 file5 file6 file7 | sort | uniq). 모든 고유 ID를 부여한 다음 7 개의 파일로 다시 분할 할 수 있습니다.

+0

응답 해 주셔서 감사합니다. 자바 이후에 중복 여부를 확인해야하기 때문에 나는 실제로 초보자입니다> 당신은 Set에 ID를로드하고 중복을 확인하는 방법에 대해 더 자세히 설명 할 수 있습니까? – Hajo

관련 문제