두 개의 Avro 파일을로드하는 Spark 작업 (CDH 5.5.1에서)과 스키마를 결합하여 DataFrame을 만들고 (동일한 스키마와 함께) 다시 Avro에게 씁니다.Avro에 쓸 때 Spark가 스키마를 변경합니다.
작업이 명시 적으로 두 입력 스키마를 비교하여 동일하다는 것을 확인합니다.
기존의 데이터와 몇 가지 업데이트를 결합하는 데 사용됩니다 (파일이 불변이므로). 그런 다음 원본 파일을 HDFS에서 이름을 바꾸어 새로운 결합 파일로 대체합니다.
그러나 업데이트 프로세스를 반복하면 (즉, 이전에 업데이트 된 파일에 추가 업데이트를 추가하려고 시도하는 경우) 이제 스키마가 다르기 때문에 작업이 실패합니다! 무슨 일 이니?