'snappy'를 사용하여 압축 된 형식의 Kinesis 스트림 파일로 구성된 버킷이 S3에 제공됩니다. 폴더 구조 및 파일 형식은 s3://<mybucket>/yyyy/mm/dd/*.snappy
입니다.내 pyspark 코드에서 S3의 Amazon kinesis 스트림 파일에 액세스하는 방법?
sqlContext
에 pyspark
으로 이것을 읽으려고합니다. 일반적으로 버킷을 다음과 같이 지정합니다.
df = sqlContext.read.json('s3://<mybucket>/inputfile.json')
이러한 여러 부분 압축 파일을 데이터 프레임에 어떻게 가져 옵니까?
업데이트 :이 같은 구문을 사용하여 더 많은 발전을 한 것처럼 보입니다.
#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="kill %p
kill -9 %p"
# Executing /bin/sh -c "kill 6128
kill -9 6128"...
데이터의 크기가 큰 것이 아니라 어떻게 든이 압축 해제 단계는 설상가상으로 보인다 그러나, 힙 크기 문제로 실행. 처음 세 *
년대는 /yyyy/mm/dd/
하위 폴더를 참조하는 경우
s3://<mybucket>/*/*/*/*.snappy
: 모든 일/월/년에서 모든 물어 파일을 얻으려고 노력하는 경우
이것은 서버 오류가 아닌 스택 오버플로에 속합니다. –
흠 ... 잘 모르겠습니다. 이 물건을 처음 접했습니다. 투표를하지 않고 마이 그 레이션에 투표 할 수 있습니까? :) – Gopala
@CharlieFish 이것은 [sf]에 정확히 속한 이유는 무엇입니까? 나에게 [so]에 대한 질문처럼 보입니다. –