2016-09-23 1 views
0

세계,Apache Spark Scala에서 CSV에서 DataFrame의 Vectors.dense를 채우는 방법은 무엇입니까?

나는 불꽃에 새 답니다.

http://spark.apache.org/docs/latest/ml-pipeline.html

나는이 구문에 대해 궁금 :

// Prepare training data from a list of (label, features) tuples. 
val training = spark.createDataFrame(Seq(
    (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
    (0.0, Vectors.dense(2.0, 1.0, -1.0)), 
    (0.0, Vectors.dense(2.0, 1.3, 1.0)), 
    (1.0, Vectors.dense(0.0, 1.2, -0.5)) 
)).toDF("label", "features") 

는 CSV에서 값을 읽는 몇 가지 구문에 대한 위의 호출을 교체 할 수

나는이 온라인 예를 발견?

나는 Python-Pandas read_csv() 메소드와 비슷한 것을 원한다.

+0

예, 지금까지 어떤 시도를하셨습니까? – eliasah

+0

@eliasah별로. 'VectorUDT'는 CSV로 직접 표현할 수 없습니까? – zero323

+1

@ zero323 직접 표현할 수는 없지만 쉽게 할 수 있습니다. 그러나 OP가 무언가를 시도했는지 또는 그가 일을 할 사람을 찾고 있는지 궁금합니다. – eliasah

답변

0

대답 :, 또는의 example을 그냥 일반 스칼라와 경우 읽을 수있는 일반 파일 시스템 : 예, CSV는 HDFS에있는 경우

, 당신이 그것을 읽을 스파크 CSV를 사용할 수있다 : example

+0

등록 벽 ​​뒤에 있지 않은 예가 있습니까? –

관련 문제