2016-08-26 4 views
2

멀티 출력 분류의 멀티 라벨 분류 알고리즘 인 스파크로 구현하려고 합니다만, 이것을 할 수있는 스파크 머신 학습 라이브러리에는 어떤 모델도 없다는 것에 놀랍니다.스파크 멀티 라벨 분류

어떻게하면 Spark에서이 작업을 수행 할 수 있습니까?

그렇지 않으면 Scikit Learn Logistic Regresssion은 입/출력에서 ​​다중 라벨 분류를 지원하지만 교육을위한 거대한 데이터를 지원하지 않습니다.

학습 scikit의 코드를 보려면 다음 링크를 클릭하십시오 : 불꽃의 또한 https://gist.github.com/mkbouaziz/5bdb463c99ba9da317a1495d4635d0fc

+0

[스파크 멀티 클래스 분류 예] (http://stackoverflow.com/q/32029314) – zero323

답변

0

API를 documentation에 따라 다중 레벨의 분류를 지원 로지스틱 회귀가있다. this을 참조하십시오.

엄청난 양의 훈련 데이터에 대한 scikitlearn 문제는 적절한 스파크 구성을 사용하여 스파크로 사라집니다.

또 다른 방법은 문제가있는 각 레이블에 대해 이진 분류자를 사용하고 해당 레이블에 관련성이없는 예측을 실행하여 multilabel을 얻는 것입니다. 이진 분류자를 사용하여 Spark에서 쉽게 수행 할 수 있습니다.

간접적으로 도움이 될 수도있는 것은 nearest-neighbors와 함께 multilabel 분류를 사용하는 것입니다.이 또한 state-of-the-art입니다. 가장 가까운 이웃은 Spark KNN 또는 Spark KNN graphs과 같은 확장 프로그램을 시작합니다.