0

(x, y) 샘플로 만들어진 트레이닝 세트가 있다고 가정합니다. 기계 학습에서 생성 알고리즘을 사용하는 경우는 언제입니까?

는 생식 알고리즘을 적용하기 위해,이 (가) 차별 가우스, 나는 가능한 모든 시그마

또는 x ~ Normal(mu, sigma) y를 주어진다면 내가 알고 난 그냥 필요에 대한 그

p(x|y) ~ Normal(mu, sigma)을 가정해야 가정 해 봅시다?

p (x | y)가 생성 알고리즘을 사용하기에 충분히 다 변수 정규 분포 (최대 임계 값)를 따른다면 어떻게 평가할 수 있습니까?

답변

5

많은 질문이 있습니다.

나는 생각한다,의 가우스 차별을 가정 해 봅시다, 생성적인 알고리즘을 적용하려면 그

페이지 | 가능한 모든 시그마

에 대한 (X, Y) ~ 정상 (MU, 시그마) 아니, 당신은 뮤 (mu), 시그마 쌍에 대해 사실이라고 가정해야합니다. 실제적으로 mu와 sigma가 무엇인지 알지 못하기 때문에이를 추정 (빈도수, 최대 우도/최대 사후 추정)하거나 예측에 대한 매개 변수 추정에 대한 불확실성을 더 잘 통합해야합니다 (베이지안 방법론).

p (x | y)가 다변량 정규 분포를 따른다면 어떻게 평가할 수 있습니까?

고전적으로 적합 테스트를 사용합니다. x의 차원이 소수 이상일 경우, 표준 테스트는 빈에있는 항목의 수를 포함하고 고 차원에서 필요한 빈의 수는 천문학적이므로 예상 예상 수가 매우 적기 때문에이 방법은 작동하지 않습니다.

더 나은 아이디어는 다음과 같습니다. x의 (조건부) 분포 모델링을위한 내 옵션은 무엇입니까? 모델 비교 기술을 사용하여 이러한 옵션을 비교할 수 있습니다. 모델 검사 및 비교에 대해 읽어보십시오.

마지막으로, 마지막 포인트 : 나에게 (임계 값까지) 충분히

는 생식 알고리즘을 사용하는

?

예를 들어 피셔의 선형 판별 분석을 포함한 많은 생산적인 방법뿐만 아니라 나이브 베이 즈 분류기의 역설, 분류 모델은 데이터에 대한 빈약 한 경우에도 아주 잘 작업 할 수 있다는 것입니다. 이것이 왜 그렇게되어야하는지에 대한 특별한 이유가 없지만, 많은 사람들은 그것이 경험적으로 사실임을 관찰했습니다. 작동 여부는 가정 배포가 데이터를 잘 설명하는지 여부보다 훨씬 쉽게 확인할 수 있습니다. 데이터를 교육 및 테스트로 나누고 알아보십시오!

+0

정말 대단한 답변입니다. 나는 Shapiro-Wilk 또는 다른 것으로 p (x | y)에 대한 분포를 평가하는 방법을 알아 내야합니다. 하지만 너는 나에게 위대한 설명과 좋은 힌트를 주었다. Tnx는 할당한다! –

관련 문제