2015-02-05 2 views

답변

0

MLlib 페이지에서 제공되는 예제를 보면 입력 데이터 생성에 대한 세부 사항을 찾을 수 있습니다. 포인터를 제공하려면 저장소에 마지막 줄이 레이블 인 텍스트 csv 파일이 있다고 가정합니다. 그러면 다음 코드는 MLlib 알고리즘에 제출할 수있는 레이블이 지정된 점 RDD를 만듭니다.

val inputData = trainTextData.map { lines => 
     val parts = lines.split(",") 
     LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray)) 
    }.cache 

지도를 작성하여 동일한 방식으로 입력 데이터를 만들 수 있습니다. 그것은 고도로 귀하의 데이터에 의존합니다.

+0

현재 우리는 입력 집합을 가지고 있으며 예제에서 주어진 프로그램 행을 실행하고 출력을 얻습니다. 이 연습에서는 주어진 입력에 대한 논리적 기능을 이해하지 못합니다. MLlib 알고리즘에 사용할 수있는 적절한 문서가 있습니까? 예 : 기술적으로 이러한 함수 호출이 무엇을 의미합니까? 알고리즘에 사용되는 형식에 사용되는 자리 표시 자 및 레이블은 무엇입니까? 알고리즘 실행이 끝나면 일련의 출력을 얻습니다. 이 데이터 포인트는 무엇을 의미합니까? 이해를 돕기위한 참조 또는 도움. 감사. –

+0

모든 것을 이해하려면 많은 노력이 필요합니다. SPARK 웹 사이트에서 MLLIB 문서로 시작하십시오. 웹에서 자습서를 따르십시오. –