2017-11-17 1 views
0

Google Cloud Storage 데이터를 bigtable에로드하는 쉬운 방법이 있습니까?Google Cloud Storage 데이터를 빅 테이블에로드하십시오.

나는파일을 pyspark에서 생성 했으므로 데이터를 bigtable에로드하고 싶습니다.

하지만 쉬운 방법을 찾을 수 없습니다!

나는 google-cloud-python에서 python 코드를 시도했으나 벌금이 부과되었지만 이상하게 생긴 bigtable에 한 행씩 데이터를 읽었습니다.

도움을 주시면 감사하겠습니다.

답변

1

Cloud Bigtable에서 데이터를 읽는 간단한 도구는 없습니다. 다음은 몇 가지 옵션입니다.

  1. Dataflow을 사용하여 파일을 가져옵니다. 이를 위해서는 Java 개발과 Dataflow 프로그래밍 모델 학습이 필요합니다.
  2. Python (Pyspark 포함)을 사용하여 해당 json 파일을 읽고 Bigtable에 일괄 적으로 쓰기위한 mutate_rows이라는 메소드를 사용하여 Cloud Bigtable에 쓸 수 있습니다.

참고하시기 바랍니다. 저는 Cloud Bigtable 팀에서 일합니다. 저는 Java 개발자이므로 # 1을 선택합니다. 우리 팀은 파이썬 경험을 향상시키기 위해 노력해 왔습니다. 확장 팀은 최근 mutate_rows가 큰 작업에 대해 복원력이 있는지 확인하기 위해 몇 가지 안정성 향상 기능을 추가했습니다. 우리는 아직 PySpark 또는 Apache Beam's python SDK과 통합하는 좋은 예는 없지만 우리 레이더에 있습니다.

+0

안녕하세요, @ 솔로몬, 팀의 경험을 공유해 주셔서 감사합니다. 나는 그것을하기 위해 데이터 흐름을 사용하려고 시도했다. gcp에서 Dataflow를 사용하는 방법을 알지 못합니다. 그런데 gcp의 문서는 항상 나를 혼란스럽게합니다! ha..ha .. – chilun

+0

다음은 Cloud Bigtable에서 Dataflow를 사용하는 몇 가지 예입니다. https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java/dataflow-connector-examples –

+0

나중에 사용해 보겠습니다. . 공유해 주셔서 감사합니다. – chilun

관련 문제