Apache Spark | 다양한 통계 알고리즘에 대해 spark MLlib에 필요한 입력 파일 형식은 무엇입니까

Apacha Spark 및 MLlib를 처음 사용했습니다. 한 가지를 제외하고 라이브러리 (MLlib)를 사용하는 것에 대한 공정한 이해를 얻었습니다. 다양한 알고리즘을 위해 입력 데이터 파일을 준비하는 방법을 모르겠다. 도와주세요. 감사.Apache Spark | 다양한 통계 알고리즘에 대해 spark MLlib에 필요한 입력 파일 형식은 무엇입니까

출처

2015-02-05 Vishal Kaushik

MLlib 페이지에서 제공되는 예제를 보면 입력 데이터 생성에 대한 세부 사항을 찾을 수 있습니다. 포인터를 제공하려면 저장소에 마지막 줄이 레이블 인 텍스트 csv 파일이 있다고 가정합니다. 그러면 다음 코드는 MLlib 알고리즘에 제출할 수있는 레이블이 지정된 점 RDD를 만듭니다.

val inputData = trainTextData.map { lines => 
     val parts = lines.split(",") 
     LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray)) 
    }.cache

지도를 작성하여 동일한 방식으로 입력 데이터를 만들 수 있습니다. 그것은 고도로 귀하의 데이터에 의존합니다.

출처

2015-02-05 12:58:36

현재 우리는 입력 집합을 가지고 있으며 예제에서 주어진 프로그램 행을 실행하고 출력을 얻습니다. 이 연습에서는 주어진 입력에 대한 논리적 기능을 이해하지 못합니다. MLlib 알고리즘에 사용할 수있는 적절한 문서가 있습니까? 예 : 기술적으로 이러한 함수 호출이 무엇을 의미합니까? 알고리즘에 사용되는 형식에 사용되는 자리 표시 자 및 레이블은 무엇입니까? 알고리즘 실행이 끝나면 일련의 출력을 얻습니다. 이 데이터 포인트는 무엇을 의미합니까? 이해를 돕기위한 참조 또는 도움. 감사. –

모든 것을 이해하려면 많은 노력이 필요합니다. SPARK 웹 사이트에서 MLLIB 문서로 시작하십시오. 웹에서 자습서를 따르십시오. –

Apache Spark | 다양한 통계 알고리즘에 대해 spark MLlib에 필요한 입력 파일 형식은 무엇입니까

답변

관련 문제