Spark와 Scala를 처음 사용했습니다. CSV 형식으로 광고 이벤트 로그 파일을 만든 다음 pkzip을 사용하여 압축합니다. Java를 사용하여 압축 파일을 압축 해제하는 방법에 대한 많은 예제를 보았습니다. 그러나 Spark에서 Scala를 사용하면 어떻게됩니까? 궁극적으로 우리는 들어오는 각 파일의 데이터를 Hbase 대상 테이블로 가져 와서 추출하고로드하려고합니다. 어쩌면 이것이 HadoopRDD로 할 수 있을까요? 이 후, 우리는이 파일을보기 위해 Spark 스트리밍을 도입 할 것입니다.Spark/Scala 압축 된 CSV 파일 열기
덕분에, 벤
내게는 효과가 없습니다. 나는 zip 파일 (.zip 확장자를 가짐)을 가지고 있고'sc.textFile (path)'가 예외를 던진다. – mgaido