카사ンド라에 40 억 개의 행이있는 RDD를 저장하려고합니다. 일부 데이터는 지속되지만 일부 파티션에서는 스파크 로그에 이러한 오류 로그가 표시됩니다.스파크 RDD를 카산드라에 저장하는 중 오류가 발생했습니다.
우리는 이미 cassandra 커넥터에 대해이 두 가지 속성을 설정했습니다. 우리가해야 할 다른 최적화가 있습니까? 또한 독자에게 권장되는 설정은 무엇입니까? 우리는 그것들을 디폴트로 남겨 두었습니다.
spark.cassandra.output.batch.size.rows = 1
spark.cassandra.output.concurrent.writes = 1
우리가 실행 스파크 1.1.0 및 불꽃 카산드라 커넥터 -java_2.10 V 2.1.0
15/01/08 05:32:44 ERROR QueryExecutor: Failed to execute: [email protected]
com.datastax.driver.core.exceptions.NoHostAvailableException: All host(s) tried for query failed (tried: /10.87.33.133:9042 (com.datastax.driver.core.exceptions.DriverException: Timed out waiting for server response))
at com.datastax.driver.core.RequestHandler.sendRequest(RequestHandler.java:108)
at com.datastax.driver.core.RequestHandler$1.run(RequestHandler.java:179)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
감사
Ankur
잠시 후에 이런 일이 발생합니까? 카산드라 클러스터 상태는 무엇입니까? CPU 사용량? – maasg
예, 시간이 지나면 몇 단계 만 발생합니다. 일부 데이터는 테이블에 기록되지만 전부는 아닙니다. – Ankur