안녕하세요 ~ SPARK에 관심이 있어요. 스파크 셸에서이 코드를 사용합니다.sortBy is org.apache.spark.rdd.RDD의 멤버가 아닙니다.
val data = sc.parallelize(Array(Array(1,2,3), Array(2,3,4), Array(1,2,1))
res6: org.apache.spark.rdd.RDD[Array[Int]] = ParallelCollectionRDD[0] at parallelize at <console>:26
data.map(x => (x(d), 1)).reduceByKey((x,y) => x + y).sortBy(_._1)
res9: Array[(Int, Int)] = Array((1,2), (2,1))
작동합니다. 그러나 sbt 어셈블리를 사용하여이 명령을 사용하면 작동하지 않습니다.
오류 메시지는
[오류] 값은 sortBy org.apache.spark.rdd.RDD [(INT, INT)]
[오류] data.map의 멤버가 아닌 (x => (x (d), 1)). reduceByKey ((x, y) => x + y). sortBy (_._1) < = 여기가 문제입니다.
내 build.sbt 코드는 뭔가 문제가
import AssemblyKeys._
assemblySettings
name := "buc"
version := "0.1"
scalaVersion := "2.10.5"
libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.0.0" % "provided"
있나요입니까?
어떤 스파크 버전을 사용하고 있습니까? – eliasah
스파크 버전 2.0.0을 사용하고 있습니다. (spark-2.0.0-bin-hadoop2.7) –
아직 spark-mllib_2.10 버전 1.0.0을로드 중입니다. 당신이 알고있는 말이 맞는 것입니까? – eliasah