2016-06-29 5 views
5

저는 pyspark 1.6.0을 사용하고 있습니다.Spark Streaming - 이진 데이터 파일 처리

AWS S3 버킷에서 이진 데이터 파일을 읽을 수있는 기존의 pyspark 코드가 있습니다. 다른 Spark/Python 코드는 int, string, boolean 등으로 변환하기 위해 데이터의 비트를 구문 분석합니다. 각 이진 파일에는 하나의 데이터 레코드가 있습니다. sc.binaryFiles를 ("S3N : // .......")

이 큰 노력하고 그것의 튜플 (파일 이름과 제공으로 PYSPARK에서

나는 사용하여 바이너리 파일을 읽고 데이터)하지만 스트림 (잘하면 파일 이름, 너무 수 있습니다)로 이진 파일을 읽을 수있는 동등한 PYSPARK 스트리밍 API를 찾으려고 노력하고있어. binaryRecordsStream (디렉토리의 RecordLength)

을하지만 나는이 작업을 얻을 수 없었다 ...

사람이 PYSPARK 스트리밍 이진 데이터 파일을 읽는 방법을 몇 가지 등을 공유 할 수 있습니다

나는 시도?

답변

관련 문제