2012-03-11 3 views
3

필자는 서면 텍스트와 관련된 분류 작업을하고 있으며 분류 결과를 향상시키기 위해 일종의 "기능 선택"절차를 수행하는 것이 얼마나 중요한지 궁금합니다.Python 기계 학습, 기능 선택

주제와 관련된 여러 기능 (약 40 개)을 사용하고 있지만 모든 기능이 실제로 관련이 있는지, 어떤 조합인지는 확실하지 않습니다. 나는 SVM (scikits)과 LDAC (mlpy)를 사용하여 다시 실험하고있다.

관련된 기능과 관련없는 기능이 혼합되어 있으면 분류 결과가 좋지 않다고 생각합니다. 분류 전에 "기능 선택 절차"를 수행해야합니까?

Scikits는 an RFE procedure that is tree-based that is able to rank the features입니다. 가장 중요한 기능을 선택하고 SVM (비선형) 또는 LDAC을 사용하여 실제 분류를 수행하기 위해 트리 기반 RFE로 기능을 랭크하는 것이 의미가 있습니까? 또는 동일한 분류자를 사용하여 일종의 래퍼 메서드를 구현해야합니까 (여러 가지 기능 그룹으로 분류하려고하면 시간이 많이 걸릴 것입니다)?

+0

진화 알고리즘을 사용하여 선택하여 결과를 개선하십시오. –

+2

음, 기능 선택을 확실히 시도해 볼 수 있습니다. 이것이 의도 된 유스 케이스이다. 문제에 대한 자세한 내용이 없으면 대답하기가 어렵습니다. 수동으로 다른 기능 세트를 시험해 볼 수도 있습니다. –

답변

0

40 개의 기능을 갖는 것이 나쁘지 않습니다. 일부 기계 학습은 관련성이없는 기능으로 인해 방해되지만 많은 것들이 매우 강력합니다 (예 : 순진한 베이 즈, SVM, 의사 결정 트리). 더 많은 기능을 추가하기로 결정하지 않으면 기능 선택을 할 필요가 없을 것입니다.

쓸데없는 기능을 버리는 것은 좋지 않지만 실제로 시도하지 않으려면 자신의 정신적 시간을 낭비하지 마십시오. 특별한 동기 부여가 있어야한다.

관련 문제