답변

4

Cloud Bigtable은 일반적으로 Apache HBase APIs을 사용하여 Spark에서 가장 잘 액세스합니다.

HBase는 현재 Hadoop MapReduce I/O 형식 만 제공합니다. 이것들은 SparkContext.newAPIHadoopRDD 메소드를 사용하여 Spark (또는 PySpark)에서 액세스 할 수 있습니다. 그러나 레코드를 파이썬에서 사용할 수있는 것으로 변환하는 것은 어렵습니다.

HBase는 Spark SQL API를 개발하고 있지만 출시 된 버전에는 통합되지 않았습니다. Hortonworks는 Spark HBase Connector을 가지고 있지만 Spark 1.6 (Cloud Dataproc 버전 1.0 필요)에 대해 컴파일하고 사용하지 않았기 때문에 사용하기가 얼마나 쉬운 지 말할 수 없습니다.

또는 파이썬 기반의 Bigtable 클라이언트를 사용하고 PySpark를 병렬 처리에 사용하기 만하면됩니다.

관련 문제