0

데이터 세트가 있습니다. 나는 그 데이터로부터 하나의 클래스 분포를 만들고 싶다. 학습 된 분포를 기반으로 각 데이터 인스턴스에 대한 확률 값을 얻고 싶습니다. 이 확률 값 (thresholding)을 기반으로 특정 데이터 인스턴스를 분류하기 위해 분류자를 작성하려는 경우 해당 분포에서 오는 지 여부를 나타냅니다.가우스 혼합 모델을 기반으로 한 이상 값 감지

이 경우, 50x100000의 데이터가 있다고 가정합니다. 여기서 50은 각 데이터 인스턴스의 차원이고 인스턴스 수는 100000입니다.이 분포를 기반으로 한 가우스 혼합 모델을 사용하고 있습니다.

인스턴스의 확률 값을 얻으려고하면 매우 낮은 값을 얻게됩니다. 그래서이 경우 어떻게 clssifier를 만들 수 있습니까?

+0

혼합물에 "하나의 클래스"= 성분 하나만있는 경우 왜 혼합 모델을 사용합니까? –

답변

1

나는 이것이 합리적이라고 생각하지 않습니다. 예를 들어, 데이터가 1 ​​차원이라고 가정하고 진상이 bimodal distribution에서 샘플링되었다고 가정합니다. 그러나 당신이 이분법적인 분포에서 나온 것이고 당신이 정규 분포에 적합하다고 계산하지 않았다고 가정 해보십시오. 당신은 여전히 ​​최상의 적합성을 가졌지 만 잘못된 배포에 가장 잘 어울릴 것입니다. 진실은 그 배포판이나 그와 비슷한 배포판에서 나온 것이 하나도 없다는 것입니다.

관련 문제