나는 거대한 데이터를 cassandra에 저장했으며 파이썬을 통해 스파크를 사용하여 처리하려고했습니다. 방금 python을 통해 spark와 cassandra를 상호 연결하는 방법을 알고 싶었습니다. 저는 sc.cassandraTable을 사용하는 사람들을 보았습니다.하지만 카산드라에서 한 번에 모든 데이터를 가져 와서 작동하지는 않습니다. 제안 사항이 있으십니까?Spark and Cassandra through Python
3
A
답변
3
설명서의 예제를 사용해 보셨습니까?
Spark Cassandra Connector Python Documentation
난 그냥 내 "짧은"2 센트를주지spark.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="kv", keyspace="test")\
.load().show()
0
. 공식 문서는 시작하기에 충분합니다. 이 기능이 작동하지 않는 이유 (예 : "드라이버"메모리를 늘려야 할 필요가 있음)가 부족하거나 사용자의 예제가 작동하지 않는 원인이되는 특정 오류가있는 경우를 예로들 수 있습니다. 또한 예제를 제공하면 좋을 것입니다.
여기 내 의견/경험 중 일부는 다음과 같습니다. 일반적으로, 항상 그런 것은 아니지만 대부분의 경우 파티션에 여러 개의 열이 있습니다. 항상 모든 데이터를 테이블에로드 할 필요는 없으며 단일 파티션 내에서 (대부분의 경우) 처리를 유지할 수 있습니다. 데이터가 파티션 내에서 정렬되기 때문에 일반적으로 매우 빠르게 진행됩니다. 그리고 어떤 중요한 문제도 제시하지 않았습니다.
casssandra의 전체 저장소가 spark cycle을 수행하여 처리하기를 원하지 않는다면 실제로 많은 솔루션을 가지고 있습니다. 기본적으로 그것은 quora 재질이 될 것입니다. 정말 다양한 주제
- 바로 응용 프로그램에서 처리를 수행 여기에 일반적인 하나의 일부입니다 스트리밍 - 그냥 영속 계층에 읽는 바로 마이크로 배치 및 세척 결과에 처리 할 - 카산드라에게 수 있습니다
- 아파치 FLINK -에 카산드라에게
- 데이터를 저장, 즉 위해 프로세스의 적절한 스트리밍 솔루션을 정기적으로 세척 상태를 사용 카산드라는 읽어야 할 방법입니다. 당신이 제공 한 정보로 말하기가 힘들다.)
- 목록이 계속 될 수있다 ... 당신의 작업이 좀 더 간단하다면 사용자 정의 함수 인 cassandra, aggregate function.
사용 사례에 대한 세부 정보를 제공하는 것이 좋습니다. 여기서 내가 말한 것은 다소 일반적이며 모호하지만, 다시이 모든 것을 논평에 넣는 것만으로는 의미가 없을 것입니다.
관련 문제
- 1. Spark DataFrame and Cassandra
- 2. Cassandra python 설정이있는 Spark
- 3. Spark and Cassandra : 인터페이스 권장 방법
- 4. Cassandra through java \ hibernate
- 5. Spark + Cassandra Integration
- 6. Spark, Cassandra 커넥터,
- 7. Cassandra 테이블에 Spark Streaming 저장
- 8. Giraph and Cassandra
- 9. Searchlogic and : has_many, : through =>
- 10. Spark Cassandra Connector 올바른 사용법
- 11. Spark Cassandra 커넥터 타임 스탬프
- 12. spark-cassandra-connector를 사용하는 leftJoinWithCassandraTable
- 13. Cassandra through Hector API 연결 오류
- 14. Spark and BloomFilter sharing
- 15. Python Loop through dictionary
- 16. TimeUUID with Cassandra and Lazyboy
- 17. Apache Ignite and Cassandra - NoClassDefFoundError
- 18. Spark Cassandra Connector가 java.time.LocalDate를 찾을 수 없습니다.
- 19. spark-cassandra-connector per partition limit
- 20. Java에서 Embedded Cassandra Server를 사용하여 Cassandra-Spark 작업을 테스트하는 예
- 21. NoClassDefFoundError : spark-cassandra-connector의 org/apache/spark/sql/DataFrame
- 22. JQuery - Loop through 700 and more 요소
- 23. Cassandra Spark 직원이 여전히 로컬에서 데이터를 마샬링해야합니까?
- 24. Spark-Streaming & Cassandra (Scala)의 선물 사용
- 25. Cassandra Spark Connector JavaDemo 컴파일 오류
- 26. Spark + cassandra : 키 공간을 만드는 방법?
- 27. Spark-cassandra-connector : toArray가 작동하지 않습니다.
- 28. Cassandra + Solr/Hadoop/Spark - 올바른 도구 선택
- 29. Spark Cassandra NoClassDefFoundError guava/cache/CacheLoader
- 30. Spark Cassandra Connector에서 잘못된 쿼리 오류 처리
모든 데이터를 읽지 않는 것은 무엇입니까? 너 뭐야? –