0
나는 가장 큰 라인과 인덱스를 찾아야 만하는 문제에 직면 해있다. 여기 내 접근 방식이다Spark java를 사용하여 가장 큰 라인 번호 찾기
SparkConf conf = new SparkConf().setMaster("local").setAppName("basicavg");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> rdd = sc.textFile("/home/impadmin/ravi.txt");
JavaRDD<Tuple2<Integer,String>> words = rdd.map(new Function<String, Tuple2<Integer,String>>() {
@Override
public Tuple2<Integer,String> call(String v1) throws Exception {
// TODO Auto-generated method stub
return new Tuple2<Integer, String>(v1.split(" ").length, v1);
}
});
JavaPairRDD<Integer, String> linNoToWord = JavaPairRDD.fromJavaRDD(words).sortByKey(false);
System.out.println(linNoToWord.first()._1+" ********************* "+linNoToWord.first()._2);
특정 문제를 설명하십시오. 당신의 접근 방식은 실패하고 어떻게됩니까? – YakovL
문제는 줄과 함께 spark를 사용하여 파일에서 가장 큰 줄의 색인을 찾는 것입니다. –
@RaviShankar 아래 답변은 0부터 시작하는 라인 인덱스를 제공합니다. –