2013-03-06 2 views
0

용어로 차원이있는 문서 - 용어 데이터가 있습니다. 용어에 대한 기능 선택을 수행해야하며 기능 선택을 수행하기위한 수단으로 상호 정보를 사용하려고합니다. 나의 의심은 가능한 모든 쌍들 사이의 상호 정보를 계산 한 후에 무엇을 할 것인가? 임계 값을 설정하고 임계 값 내에있는 쌍의 모든 조건을 선택해야합니까?기능 선택

+0

예, 일반적으로 수행되는 작업입니다. –

+0

감사합니다. @LarsKotthoff 어떤 기준에 따라 임계 값을 결정할 수 있는지 알려주십시오. – pooja

+0

특정 데이터 및 보관할 기능의 수에 따라 다릅니다. 이상적으로, 당신은 상호 정보가 거의 없기 때문에 갑자기 중요한 변화가 있음을 발견하게 될 것입니다. 이것은 상호 정보가 많아서 귀하의 기준점을 어디에 두어야하는지 알려줍니다. 그러나 실제로 이것은 그렇지 않을 수도 있습니다. –

답변

1

상호 정보를 사용하려면 mRMR algrorithm을 사용하는 것이 좋습니다. 이러한 종류의 알고리즘을 사용하여 기능을 선택할 수 있습니다. 나는 무엇을 의미 :

You have n features at your data set (it means n dimensions) 

당신이

k of n (k < n) 

당신은

K 의존에 결정 (상호 정보 배경을 사용하여 즉 mRMR 포함) 기능 선택을 사용할 수있는 가장 의미있는 사용하려는 경우 어떤 상황에서는. 그 중

  • 하나는 당신이 당신의 모델 생성에 불필요한 기능을 사용하지 않을 것입니다.

  • 다른 것은 당신이 계산 비용을 aviod하고 데이터에서 일부 기능을 제거하려는 당신이 일부 기능을 제거한 후에는 알고리즘을 테스트해야합니다

을 설정합니다. 당신은 정확도가 올라가고 당신의 목표에 따라 정확도가 떨어지는 것을 계산 비용으로 피하는 결과를 얻는다는 것을 검사합니다. (그래서 어떤 특징을 너무 떨어 뜨릴 수 있습니다.)

한편, 추출 방법 즉 PCA 및 LDA (특히 귀하의 경우).

+0

mRMR은 수업을 직접 (감독) 받아야합니다. 클래스 레이블을 알 수 없을 때 어떤 기능을 선택해야합니까? – pooja