2017-04-09 1 views
3

나는 거대한 데이터를 cassandra에 저장했으며 파이썬을 통해 스파크를 사용하여 처리하려고했습니다. 방금 ​​python을 통해 spark와 cassandra를 상호 연결하는 방법을 알고 싶었습니다. 저는 sc.cassandraTable을 사용하는 사람들을 보았습니다.하지만 카산드라에서 한 번에 모든 데이터를 가져 와서 작동하지는 않습니다. 제안 사항이 있으십니까?Spark and Cassandra through Python

+0

모든 데이터를 읽지 않는 것은 무엇입니까? 너 뭐야? –

답변

0

. 공식 문서는 시작하기에 충분합니다. 이 기능이 작동하지 않는 이유 (예 : "드라이버"메모리를 늘려야 할 필요가 있음)가 부족하거나 사용자의 예제가 작동하지 않는 원인이되는 특정 오류가있는 경우를 예로들 수 있습니다. 또한 예제를 제공하면 좋을 것입니다.

여기 내 의견/경험 중 일부는 다음과 같습니다. 일반적으로, 항상 그런 것은 아니지만 대부분의 경우 파티션에 여러 개의 열이 있습니다. 항상 모든 데이터를 테이블에로드 할 필요는 없으며 단일 파티션 내에서 (대부분의 경우) 처리를 유지할 수 있습니다. 데이터가 파티션 내에서 정렬되기 때문에 일반적으로 매우 빠르게 진행됩니다. 그리고 어떤 중요한 문제도 제시하지 않았습니다.

casssandra의 전체 저장소가 spark cycle을 수행하여 처리하기를 원하지 않는다면 실제로 많은 솔루션을 가지고 있습니다. 기본적으로 그것은 quora 재질이 될 것입니다. 정말 다양한 주제

  • 스파크 더 나은 akka이 클러스터의 hazelcast 같은 간 인스턴스 통신 프레임 워크의 일종이 필요할 수있다 -

    1. 바로 응용 프로그램에서 처리를 수행 여기에 일반적인 하나의 일부입니다 스트리밍 - 그냥 영속 계층에 읽는 바로 마이크로 배치 및 세척 결과에 처리 할 - 카산드라에게 수 있습니다
    2. 아파치 FLINK -에 카산드라에게
    3. 데이터를 저장, 즉 위해 프로세스의 적절한 스트리밍 솔루션을 정기적으로 세척 상태를 사용 카산드라는 읽어야 할 방법입니다. 당신이 제공 한 정보로 말하기가 힘들다.)
    4. 목록이 계속 될 수있다 ... 당신의 작업이 좀 더 간단하다면 사용자 정의 함수 인 cassandra, aggregate function.

    사용 사례에 대한 세부 정보를 제공하는 것이 좋습니다. 여기서 내가 말한 것은 다소 일반적이며 모호하지만, 다시이 모든 것을 논평에 넣는 것만으로는 의미가 없을 것입니다.

  • 관련 문제