S3 버킷에 수천 개의 압축 된 CSV 파일이 있습니다. 각각의 크기는 약 30MB (압축 해제 후 약 120-160MB)입니다.이 파일은 spark를 사용하여 처리하려고합니다.파일별로 스파크 파티션
필자의 필자는 각 행에서 간단한 필터 선택 쿼리를 수행하고 있습니다.
파티션을 나누는 동안 파일을 두 개 이상의 부분으로 나눈 다음 각 파티션에 대한 작업을 만듭니다. 각 작업은 125K 레코드를 처리하기 위해 약 1 분이 걸립니다. 나는 많은 작업에 걸쳐 하나의 파일을 분할하는 것을 피하고자한다.
각 작업이 하나의 전체 파일에서 작동하도록 파일 및 파티션 데이터를 가져 오는 방법이 있습니까? 즉, 작업 수 = 입력 파일 수입니다.