2010-02-06 3 views
5

데이터 마이닝 알고리즘 비교가 있습니까? 견고한 모델을 생성하기위한 성능, 정확성 및 필요한 데이터 양에 대한 비교. bagging 및 boosting과 같은 앙상블 학습 알고리즘이 현재로서는 가장 정확하다고 여겨집니다. 해결할 특정 문제가 없습니다. 이론적 인 질문 일뿐입니다.데이터 마이닝 알고리즘 비교

답변

8

데이터 마이닝에 대한 설문 조사를 웹에서 검색해야합니다.

여기에 하나가 있습니다 : Top Ten Algorithms in Data Mining, 나란히 대신 순위를 부여합니다. (그것은 내가 종이를 통과하지 못했을지라도).

3

일반적으로 견고성과 정확도 측면에서 기계 학습 알고리즘을 비교하는 것은 매우 어렵습니다. 그러나 하나는 장단점을 연구 할 수 있습니다. 나는 가장 잘 알려진 기계 학습 알고리즘 몇 가지를 생각해 봅니다 (이것은 전혀 다른 방법으로는 생각할 수 없습니다.).

의사 결정 트리 : 가장 눈에 띄게 C4.5 알고리즘. 그들은 쉽게 해석 할 수있는 모델을 생산할 수있는 이점이 있습니다. 그러나 그들은 overfitting에 감염되기 쉽습니다. 많은 변종이 존재합니다.

베이지안 네트워크는 강력한 통계적 근원을 가지고 있습니다. 불완전한 데이터를 통해 추론이 이루어지는 도메인에서 특히 유용합니다.

인공 신경망은 널리 사용되고 있으며 강력한 기술입니다. 이론적으로 그들은 임의의 함수를 근사 할 수 있습니다. 그러나 많은 수의 매개 변수 (네트워크 구조, 노드 수, 활성화 함수 등)를 조정해야합니다. 또한 블랙 박스 (모델을 해석하기 어려움)로 작동하는 단점이 있습니다.

지원 벡터 머신은 아마도 가장 강력한 기술 중 하나로 간주됩니다. 유명한 커널 속임수를 사용하면 이론상 항상 100 % 분리 가능성을 얻을 수 있습니다. ANN과 달리 그들은 유일하게 해결할 수있는 문제를 최적화하려고 노력합니다 (로컬 minimas 없음). 그러나 계산 집약적이어서 대규모 데이터 세트에 적용하기가 어려울 수 있습니다. SVM은 분명 공개 된 연구 분야입니다.

그런 다음 bagging, boosting, stacking 등과 같은 앙상블 학습 기술과 같은 메타 학습 알고리즘이 있습니다. 그 자체로는 아니지만 다른 알고리즘을 개선하고 결합하는 방법으로 사용됩니다.

알고리즘은 일반적으로 다른 알고리즘보다 우수하지 않으며, 선택할 수있는 결정은 우리가 속해있는 도메인과 데이터 및 다른 여러 요소 중에서 사전 처리되는 방법에 따라 달라진다는 것을 언급해야합니다.

+4

도메인 의존도에 동의합니다. 나는 "자유로운 점심 정리 없음"이 마법의 단어라고 믿습니다. – mcdowella

2

ROC curves은 기계 학습 기술의 평가, 특히 다른 분류 알고리즘의 비교 및 ​​평가에 유용함이 입증되었습니다. 이 introduction to ROC analysis에 도움이 될 수 있습니다.

0

귀하의 질문에 따르면, 당신은 분류 알고리즘에 관심이있는 것 같습니다. 먼저, 데이터 마이닝이 분류에만 국한되지 않음을 알려드립니다. 마이닝 빈번한 패턴, 클러스터링 등과 같은 몇 가지 다른 데이터 마이닝 작업이 있습니다.

질문에 대답하기 위해 성능은 알고리즘과 데이터 세트에 따라 다릅니다. 일부 데이터 세트의 경우 일부 알고리즘은 다른 데이터 세트보다 정확도가 더 좋을 수 있습니다. 대부분의 데이터 마이닝 서적 (C4.5 등)에 설명 된 고전 분류 알고리즘 외에이 주제에 대한 많은 연구 논문이 있습니다. 지금 어떤 알고리즘이 일반적으로 더 잘 수행되는지 알고 싶다면 연구 논문을 읽는 것이 좋습니다.연구 논문은 일반적으로 이전 알고리즘과 성능 비교를 제공합니다. 하지만 내가 말한 것처럼 성능은 데이터에 따라 달라질 수 있습니다. 그래서 알고리즘을 찾아야 할 수도 있습니다!