2012-09-09 3 views
0

.csv 또는 유사한 형식으로 기록 된 테이블을 나타내는 파일이 있습니다. 표에 누락 된 값이있을 수 있습니다. 내 파일이 커질 수 있으므로 모든 것을 메모리에로드하지 않고 증분 방식으로 내 파일을 처리하는 솔루션 (Java가 선호 됨)을 찾습니다. 파일에서 중복 레코드를 식별하여 고려 대상에서 제외 할 열을 지정할 수 있어야합니다. 그런 다음 중복 된 레코드를 그룹화 한 출력을 생성합니다. 그룹 번호로 끝에 추가 값을 추가하고 그룹 번호별로 정렬 된 동일한 형식 (.csv)으로 출력합니다..csv에 변수가 포함 된 해싱 행을위한 Java 솔루션

일부 해시 기능을 사용하면 효과적인 솔루션을 찾을 수 있기를 바랍니다. 예를 들어, 모든 행을 읽고 해시 값을 각 행 번호와 함께 저장하면, 해시 값을 입력으로 제공하는 변수 세트를 기반으로 해시가 계산됩니다.

아이디어가 있으십니까?

+0

DBMS 대신 더 나은 작업 일 수 있습니다. – Makoto

+0

예,하지만 자바에서 필요합니다. – mel

답변

0

좋아, 여기에 답변의 열쇠가있는 the paper입니다. P. Gopalan & J. Radhakrishnan "데이터 스트림에서 중복 찾기"

관련 문제