저는 Spark에 대한 연구를 위해 뛰어 들고 있습니다. Spark이 어떤 일을 처리하는 방법에 대한 질문이 있습니다.Spark RDD의 네이티브 스칼라 메서드를 사용하면 Spark 매직이 손실됩니까?
키 -> 값 쌍 (CustomerID, TotalSpend)의 RDD가 있습니다. RDD에서 .sortBy를 사용하면 .sortBy가 Spark 메서드가 아닌 Scala 메서드이므로 Spark 마법을 놓치고 있습니까?
즉, Spark에서 수행하는 배포의 이점을 얻으려면 RDD의 Spark 메소드 만 사용할 수 있습니까? 나는 사람들이 rdd.sortBy (x => x._2)와 같은 것을하고 싶어하는 예제를 보았지만 대신 rdd.reduceByKey()를 사용하여 튜플 멤버들을 뒤집기 위해 먼저 rdd를 매핑 할 것이다.
Duh. 그것이 나에게 일어나지 않았다는 것을 믿을 수 없다. 필자는 Spark이 스칼라 컬렉션 기능을 RDD로 확장 시켰다고 생각했다. 감사. – CubemonkeyNYC