2013-12-20 4 views
2

저는 인간이 쉽게 해석 할 수있는 투명한 규칙이나 정의를 생성하는 감독 된 기계 학습 알고리즘을 찾고 있습니다.인간이 해석 할 수있는 감독 된 기계 학습 알고리즘

내가 작업하는 대부분의 알고리즘 (SVM, 임의 포리스트, PLS-DA)은 그리 투명하지 않습니다. 즉, 비 컴퓨터 과학자 관객을 겨냥한 출판물의 테이블에 모델을 요약 할 수 없습니다. 저자가 일반적으로하는 일은 예를 들어 어떤 기준 (예 : 지니 인덱스 또는 RF의 경우 정확도의 평균 감소)에 따라 중요한 변수의 목록을 게시하고 때로는이 변수가 다른 점을 표시하여 목록을 개선하는 것입니다 문제의 클래스들 사이.

"V11-V20> 변수 중 하나 또는 변수 V11-V20 < 1 분위) 및 변수 V21-V30> 3 분위 (if quartile) 중 어느 하나가 비교적 간단하게 출력됩니다. 클래스 A ".

주위에 그런게 있습니까?

그냥 내 질문에 약간의 제약이 있습니다. 고도의 다차원 데이터 세트 (수십 만에서 수십만의 공통 변수)로 작업하고 있습니다. 예를 들어 회귀 나무는 좋은 생각이 아닙니다. (저는 생각합니다).

+2

간단한 [결정 트리] (http://en.wikipedia.org/wiki/Decision_tree_learning)와 같은 의미입니까? –

+0

결정 * boundary *을 해석 할 수 있도록 하시겠습니까, 아니면 모든 * 단일 결정 *이 해석 가능한지만으로 충분합니까? 예를 들어, k 개의 가장 가까운 이웃들과 함께, 결정 경계는 매우 복잡 할 수 있지만, 가장 가까운 k 개의 이웃을 보여줌으로써 모든 단일 결정을 인간 사용자에게 설명 할 수 있습니다 (이는 매우 이해하기 쉽습니다). – Niki

+0

@RogerRowland 글쎄, 나는 컴퓨터 과학의 기초가 부족하다. 그러나 그렇다. 그것은 매우 다차원적인 데이터 세트와 연속적인 변수보다는 서수 (ordinal)에서 작동해야한다는 점을 제외하고는. – January

답변

2

의사 결정 나무를 묘사하는 것처럼 들릴 것입니다. 왜 회귀 나무가 좋은 선택이 아닌가? 어쩌면 최적은 아니지만 작동하며 가장 직접적으로 해석 가능한 모델입니다. 연속 값에서 작동하는 것은 서수 값에서 작동합니다.

정확한 분류 기준을 원하고 간단하고 설명이 가능한 모델을 원할 때마다 긴장감이 있습니다.

  • 작은 최대 깊이
  • 높은 최소한의 정보는
  • 자두에게
  • 만 "에 대한 훈련 트리를 얻을 : 당신은 더 해석하기 위해 임의의 결정 숲 모델을 구축하고, 여러 가지 방법을 제한 할 수 이해하기 "기능
  • 퀀 타이즈/둥근 결정이 모델은 반드시 좋지 않을 것

threhsolds.