2013-05-14 4 views
-2

일반적으로 교육 후 얻은 감독 학습 분류 기준 모델의 정확도가 예상과 다를 때 따르는 단계는 무엇입니까? 예제 단계 : 기능 재 공학, 소음 제거, 치수 감소,과 피팅 등. 어떤 테스트 (분류 자의 정확도를 확인한 후에 수행)를하면 결론을 내릴 수 있습니다 (정확도가 낮기 때문에 소음이 많음). 이로 인해 조치가 수행됩니다 (노이즈가 많은 단어/기능 제거 등).)? 작업을 수행 한 후 분류기를 다시 훈련하면 좋은 결과를 얻을 때까지 사이클이 계속됩니다. 큰 허용 대답을 가지고 Feature Selection and Reduction for Text Classification을하지만, 위에서 설명한대로 그것은 당신이 말을하지 않습니다 당신이 결론에 도달 할 다음 단계에 대한기계 학습 - 분류 기준 평가

답변

0

을 이야기하지 않습니다 -

나는 SO에이 질문을 읽고 당신이하려고하는 것은 전반적으로 당신이 개업의 (다른 지역의 전문가)이거나 기계 학습의 전문가 인 경우에 따라 달라집니다.

한 차원 깊이 나 어려움은 다음과 같습니다 :에 관계없이에, 일의이 모든 종류의 당신이 볼 수

- 기본 : 간단한 방법론과 프로그래밍 버그를 처리. 0과 1 (-1과 1), 교차 검증 사이의 기능은 하이퍼 매개 변수 (C와 감마 SVM의 경우) 및 다른 많은 세부 사항을 좋은 값을 얻을 :이 질문은 그들을 잘 다룹니다 Supprt Vector Machine works in matlab, doesn't work in c++

- 중급 : 더 깊은 개념 버그 처리. 데이터의 질과 양을 재검토하고 분류 자의 유형을 검토하여 선형 대 비 선형, 생성 대 대별, 동일한 데이터에서 사용자와 유사한 방법을 사용하여 얻은 결과에 대한 문헌을 확인하십시오. 다른 유형의 데이터 (소스 문제)에 대한 일부 유형의 데이터 테스트에 대해 훈련하고 있다는 가능성을 고려하십시오. 키워드 : 도메인 적응, 다중 작업 학습, 정규화 등

- 고급 : 당신은 모든 posibilities을 소진 한, 당신이 당신의 문제를 해결하기 위해 최첨단 기술을 발전 할 필요가있다. 빠른 알고리즘이 필요합니다. 적은 양의 데이터로 강력한 결과를 얻거나 대규모로 대규모로 처리해야합니다. 최첨단 솔루션의 상태를 연구하고 앞으로 밀어 붙입니다. (때때로 : 전문 지식 -

: 또한, 때로는 진보는 때때로 당신이 분류는 유용 주로 직교하지만, 등, 가정을 제거, 다른 경로를 취할

필요 증분/그렇게 진화하지 않습니다 링크하는 경우와 같이) 처리가 어려운 (NLP, Vision) 문제는 전문 지식을 사용하여 접근 할 수 있습니다. 예를 들어 얼굴 인식에서 사람들은 신경 과학의 결과를 기반으로 한 얼굴의 일부 영역 (눈 주위)을 사용합니다. 이는 개인 결과를 인식하는 것이 사람이 초점을 맞추고 있음을 보여줍니다. SIFT, SURF, LBP와 같은 모든 유용한 표현 방법이 인간의 시각에서 어느 정도 기초를 가지고 있습니다. 또한 링크 된 예에서 언어 학자들은 NLP에 대한 ML 접근법에 사용 된 표현 인 Feature Selection and Reduction for Text Classification을 제안했습니다.

1

분류 기준에 따라 사용할 수있는 다양한 측정 항목이 있습니다. 바이너리 분류 자인가요? 다중 클래스 분류기? 또는 다중 레이블 다중 클래스 분류 자? 가장 일반적으로 사용되는 통계로는 정밀도, 회수율, F- 점수 및 정확도가 있지만 특히 다중 라벨 분류기와 관련하여 더 자세한 통계 자료가 많이 있습니다.

대부분의 기계 학습 툴킷은 표준 평가 메트릭 (정밀도, 리콜 등)을 구현하지만 여러 라벨 분류기에 대한 메트릭이 많은 기계 학습 툴킷에서 구현되지 않음을 발견했습니다.

용지 A systematic analysis of performance measures for classification tasks은 분류 기준에 대한 포괄적 인 목록입니다. A literature survey of algorithms for multi-label learning

귀하의 측정에 따라, 당신은 (또는 더 정확한 데이터를) 더 많은 데이터를 같은 overfitting, 단순성과 같은 문제를 처리 또는 얻을 중 하나를 할 수 있습니다 또는 :

멀티 라벨 분류 통계에 좋은 종이입니다 (극한 상황에서) 스위치 기계 학습 알고리즘 또는 접근법. 도밍고의 A few useful things to know about Machine Learning

을 참조하십시오.