매일 BigQuery 테이블에 증분 데이터를 추가 할 계획입니다. 증분 데이터를 기존 테이블에 추가 할 때마다 테이블의 기존 데이터에서 중복 된 레코드 (기본 키 열 기반)를 제거하려고합니다. SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)
- - 새로운 테이블에 결과를 저장 BigQuery 테이블에서 중복 레코드 제거
INCR_KEYS
를 호출 할 수 있습니다)
- 이 증분 데이터에서 키 세트를 수집 - 한 가지 방법은하는 것입니다.
- 새 테이블에 증분 데이터를 추가하십시오.
이 접근법에 대한 나의 관심은 큰 테이블의 복사본을 만들어 내 청구서에 추가한다는 것입니다.
중복 테이블을 만들지 않고도 같은 결과를 얻을 수있는 더 좋은 방법이 있습니까?
테이블이 얼마나 큰을? 압축 된 64MB보다 크면 # 2가 실패합니다. –
@RyanBoyd - 문제가되지 않아야합니다. INCR_KEYS> 64MB 인 경우, INCR_KEYS를 더 작은 청크로 분할하여 반복 할 수 있습니다. <2> – user1659408
전체 테이블 (예 : INCR_KEYS에없는 데이터)이 64MB보다 큰 경우 문제가 발생합니다. # 2의 SELECT 쿼리는 성공하지 못합니다. –