spark shell을 사용하여 HDFS에서 두 파일을 결합하려고합니다. 두 파일 탭 분리되고 난Spark에서 두 개의 HDFS 파일 결합
코드 을 시도하지만 모든 출력
val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily"))
val ny_daily_split = ny_daily.map(line =>line.split('\t'))
val enKeyValuePair = ny_daily_split.map(line => (line(0).substring(0, 5), line(3).toInt))
val ny_dividend= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock/NYSE_dividends"))
val ny_dividend_split = ny_dividend.map(line =>line.split('\t'))
val enKeyValuePair1 = ny_dividend_split.map(line => (line(0).substring(0, 4), line(3).toInt))
enKeyValuePair1.join(enKeyValuePair)
을 포기하지 않을하지만 특정 열 에서 파일을 결합하는 방법에 대한 정보를 얻고 있지 않다 두 번째 열에서 가입 할 나는 특정 컬럼에 파일을 결합하는 방법에 대한 정보를 얻고 있지 않다
정확하게 내가 조인의 키와 값에 넣어야하는 것은 내가 열에 합류하고 출력으로 합쳐진 전체 데이터 세트를 볼 수 있어야합니다. –
'map' 함수를'ny_daily_split.map (line => line (1) -> line.mkString ("\ t"))'ny_dividend_split.map (line => line (1) -> line.mkString ("\ t")) – fedragon