PySpark 애플리케이션의 Google Cloud Bigtable에서 데이터를 읽고 쓰는 방법은 무엇인가요?

Google Cloud Dataproc 클러스터에서 Spark를 사용 중이며 PySpark 작업에서 Bigtable에 액세스하고 싶습니다. Google BigQuery 커넥터처럼 Spark 용 Bigtable 커넥터가 있습니까?PySpark 애플리케이션의 Google Cloud Bigtable에서 데이터를 읽고 쓰는 방법은 무엇인가요?

어떻게 PySpark 응용 프로그램에서 Bigtable에 액세스 할 수 있습니까?

출처

2016-11-02 Revan

Cloud Bigtable은 일반적으로 Apache HBase APIs을 사용하여 Spark에서 가장 잘 액세스합니다.

HBase는 현재 Hadoop MapReduce I/O 형식 만 제공합니다. 이것들은 SparkContext.newAPIHadoopRDD 메소드를 사용하여 Spark (또는 PySpark)에서 액세스 할 수 있습니다. 그러나 레코드를 파이썬에서 사용할 수있는 것으로 변환하는 것은 어렵습니다.

HBase는 Spark SQL API를 개발하고 있지만 출시 된 버전에는 통합되지 않았습니다. Hortonworks는 Spark HBase Connector을 가지고 있지만 Spark 1.6 (Cloud Dataproc 버전 1.0 필요)에 대해 컴파일하고 사용하지 않았기 때문에 사용하기가 얼마나 쉬운 지 말할 수 없습니다.

또는 파이썬 기반의 Bigtable 클라이언트를 사용하고 PySpark를 병렬 처리에 사용하기 만하면됩니다.

출처

2016-11-02 15:43:47

PySpark 애플리케이션의 Google Cloud Bigtable에서 데이터를 읽고 쓰는 방법은 무엇인가요?

답변

관련 문제