2016-08-03 5 views
1

나는 스파크 및 스칼라를 처음 사용합니다. 나는 WEKA를 사용하여 훈련 된 10 가지 기계 학습 모델을 가지고 있습니다.Weark model on Spark

Now, i am moving my application to spark and want to use these models. 
How can i use them into spark? 

예측을 위해 선택할 모델은 오는 데이터 유형에 따라 다릅니다. 10 개를 모두 메모리에로드 할 필요가 없도록 응용 프로그램을 어떻게 디자인해야합니까?

도움을 주시면 감사하겠습니다.

답변

1

우선 weka의 classifiersserializable이 아니므로 까다로운 방식으로 모델을 적용 할 수 있습니다.

반면에 MLLib (http://spark.apache.org/docs/latest/ml-guide.html)를 사용하여 스파크 기반 ML 알고리즘을 교육 할 수 있으므로 apache 스파크에서 weka 기반 모델을 적용하려는 이유가 명확하지 않습니다. 잘 설명되어 있으며 많은 유용한 예제를 찾을 수 있습니다.

마지막으로 필자는 reita 데이터 세트에서 weka J48 결정 트리와 스파크 결정 트리 모델의 성능을 비교했습니다. 문서 분류 문제로, 10 배 교차 유효성 확인 방식으로 모델을 퇴출 시켰습니다. F1을 점수 WEKA 결과 :

(선박, 0.5751879699248121)
(곡물, 0.7714285714285716)
(돈-FX, 0.7308567096285064)
(옥수수, 0.7334851936218679)
(무역, 0.7641325536062378)
(원유, 0.7815049864007253)
이 (적립 0.9310115645354248)
(밀, 0.7661870503597122)
(ACQ, 0.8078484438430312)
(이자, 0.6561 743,341,404,359)

그리고 불꽃의 결과 :

(선박, 0.5307018372123027)
(곡물, 0.7606432455706257)
(돈-FX, 0.7476899173974012)
(옥수수, 0.7210280866934613)
(무역, 0.7607140827384508)
(조질, 0.7450426425908848)
는 (획득, 0.9337615148649243)
(밀, 0.751148372254634)
01,235,164 당신이 볼 수 있듯이(ACQ, 0.8009280204333529)
(이자, 0.6837952003315322)

, 그것은 두 솔루션 사이에 큰 차이가 없다. 그래서 apache spark mllib을 적용하는 것이 좋습니다!

관련 문제