0
내가 SparkContext 통해 CSV 파일을로드하려고 로딩 후 내가 CSV 파일의 필요한 열을 어떤 RDD 작업을 수행해야 할 파일. 나는 csv 파일을 읽고 JavaRDD에서 필수 열을 가져올 수있었습니다. 이제는 이러한 열에 대한 RDD 작업을 수행해야합니다.스파크 RDD 기능
이 내가 지금까지 시도한 것입니다 ..
JavaRDD<String> diskfile = sc.textFile("/Users/hadoop/Downloads/Data_1.csv");
JavaRDD<Object> newRDD = diskfile.cache().map(lines -> Arrays.asList(new String[]{
lines.split(",")[0],
lines.split(",")[1]
}
));
System.out.println(newRDD.collect());
newRDD.collect()
인쇄 0 번째 열 및 CSV 데이터의 1 열. 이제 newRDD
에서 RDD 작업을 수행해야합니다.
미리 감사드립니다. 당신이 점화 RDD 변환을 시작 싶어 경우
응답 해 주셔서 감사합니다. RDD 작업에 대해 알고 있습니다. 여기 내 요구 사항은 csv 데이터의 두 열에 대해 rdd 연산을 적용하는 것입니다. – user4342532
wt 작업을 찾고 계십니까? –
column1의 최대 값에 해당하는 column2 값을 반환해야합니다. – user4342532