기계 학습을 처음 사용합니다. MLlib의 의사 결정 트리를 사용하려고합니다.mllib 입력 파일 형식
누군가가 멀티 카테고리 분류를 위해 mllib 결정 트리에 대한 입력 파일을 준비하는 방법을 알려줄 수 있습니까? 입력 mllib에 필요한 내 CSV 파일의이
라벨의 형식은
, 텍스트
label_1, text of label 1
label_2, text of label 2
label_3, text of label 3
형식 libsvm, 또는 labeledpoint이다.
fileformat에 허용 된 텍스트가 없습니다. 질문은 mllib에 필요한 숫자 기반의 파일 형식으로 텍스트를 매핑하고 나중에 결과를 해석하는 방법입니다. 구현을 위해 java를 사용하고 있습니다.
안부
MLLib의 TFIDF 변환을 고려 했습니까? – Anas