Google Cloud 저장소에서 파일을 읽고 파일의 필드 인 transaction_date를 기준으로 여러 파일로 분할해야합니다. 파일 크기는 약 6TB입니다 (여러 파일로 분할 됨). 이것을 달성하는 가장 효과적인 방법은 무엇입니까? 데이터 흐름이나 Dataproc, 다른 간단한 방법을 사용해야합니까?Google 클라우드 저장소 - 파일의 값으로 파일 분할
0
A
답변
1
transaction_date
마다 별도의 (샤드 드) 파일을 작성하려고합니다. 데이터 흐름과 함께 제공되는 TextIO.Write
에는 직접 지원이 없지만 날짜 범위를 알고있는 특별한 경우가있는 것 같기 때문에 ~ 11 개의 서로 다른 필터링 된 TextIO.Write
변형을 수동으로 만들 수 있습니다.
PCollection<Record> input = ...
for (Date transaction_date : known_transaction_dates) {
input.apply(Filter.by(<record has this date>)
.apply(TextIO.Write.to(
String.format("gs://my-bucket/output/%s", transaction_date)));
}
확실히 이상적은 아닙니다. BigQueryIO
의 경우 데이터의 창을 기준으로 다른 테이블에 쓰기 기능이 있습니다. 비슷한 기능을 TextIO
에 추가하면 사용 사례를 해결할 수 있습니다. 그렇지 않으면 다양한 종류의 데이터 의존적 인 기록이 Google의 레이더에 있으며 사용자의 경우와 같은 사례가 포함됩니다.
관련 문제
- 1. Google 클라우드 저장소 설치
- 2. Oozie - Google 클라우드 저장소 - 파일 삭제
- 3. Google 클라우드 저장소 - 파일 변경 모니터링
- 4. Google 클라우드 저장소 : 저장소 생성시 브라우저 열기
- 5. Google 클라우드 저장소, 캐시 제어
- 6. Google 클라우드 저장소 인증 혼동
- 7. Google 검색 엔진의 Google 클라우드 저장소 파일 위치
- 8. Google 클라우드 저장소 UI로 Google 드라이브 사용
- 9. Google 클라우드 저장소 파일에 작업 추가
- 10. Google 클라우드 저장소 읽기 객체 인증 확인
- 11. Google 클라우드 저장소 gzip 압축, 잘못된 헤더
- 12. Google 클라우드 저장소 gsutil 도구 (자바 포함)
- 13. Facebook 용 Google 클라우드 저장소 앱
- 14. 공개 Google 클라우드 저장소 버킷 목록
- 15. Google 클라우드 저장소 버킷에 개체 업로드 C#
- 16. 기존 appengine 계정에 대한 Google 클라우드 저장소
- 17. Google 클라우드 저장소 - 권한이 거부 된 예외
- 18. Google 클라우드 저장소 샘플이 작동하지 않습니다.
- 19. Google 클라우드 저장소 gzip 다운로드가 작동하지 않습니다.
- 20. Google 클라우드 데이터 저장소 쿼리 성능
- 21. urllib 대 클라우드 저장소 (Google App Engine)
- 22. IOS/Android 앱용 Google 클라우드 저장소 다운로드
- 23. Google 클라우드 저장소 계정을 만드는 방법 (무료)
- 24. gaze의 클라우드 저장소 내부 파일 이동
- 25. 앱 엔진에서 대용량 클라우드 저장소 파일 처리
- 26. Google 클라우드 저장소의 파일 목록
- 27. Google 클라우드 DNS 영역 파일?
- 28. Google 클라우드 저장소 클라이언트 API 패치가 작동하지 않음
- 29. 3D 포인트 클라우드 분할
- 30. 자바를 사용하여 Google 클라우드 저장소에서 파일 읽기
transaction_date 당 레코드 수는 대략 몇 개입니까? 그리고 입력 형식의 파일 형식은 무엇입니까? 출력용으로 동일한 파일 형식을 계획하고 있습니까? (개행 문자로 구분 된 CSV 또는 JSON 같은 것입니까?) –
데이터의 90 %는 하나의 날짜이고 나머지 10 %는 최대 10 일입니다. 개행 문자로 분리 된 CSV, 출력에서 동일한 형식을 계획 중입니다. 한 파일을 최대 11 개 파일에 넣을 필요가 있습니다 (오늘 90 % + 지난 10 일 동안 10 %). –
* single * 파일에 단일 transaction_date와 관련된 모든 레코드가 필요하거나 거래일에 대한 모든 데이터를 손쉽게 얻을 수있는 방법으로 구성하려했는지, 아니면 더 작은 파일 거래 날짜별로 다른 디렉토리로 나눈 값? –