단일 모달 분포를 따르는 것처럼 보이는 데이터는 종종 하나 또는 두 개의 가우시안이 혼합되어 모델링 될 수 있습니다. 마찬가지로, 바이 모달 분포 (bimodal distribution)를 따르는 것처럼 보이는 데이터는 때로는 2 또는 3의 혼합으로 모델링되는 것이 가장 좋습니다. 히스토그램이 생성 된 원시 데이터가 여전히있는 경우 sklearn의 기능을 사용하여 데이터에 '가장 적합한'혼합 된 가우스를 식별 할 수 있습니다. 방법을 보여주는 http://www.astroml.org/book_figures/chapter4/fig_GMM_1D.html의 코드가 있습니다. 그런 모델을 얻은 후에는 해당 코드에 표시된 기술을 사용하여 의사 무작위 샘플을 생성 할 수 있습니다.
가
gmm = GMM(3, n_iter=1)
gmm.means_ = np.array([[-1], [0], [3]])
gmm.covars_ = np.array([[1.5], [1], [0.5]]) ** 2
gmm.weights_ = np.array([0.3, 0.5, 0.2])
따라서 그들의 수단이, 혼합물의 가우시안의 개수의 명령문 필요 그 공분산 행렬 및 아마도 상대적 가중치 세트 :
는 I 코드는 것을 알 각 가우스 샘플을 샘플링 한 횟수
편집 : 내가이 답변을 향상시킬 수 있도록 아래 투표를 한 이유를 추측하려고합니다. 설명이 부족한 링크를 포함 시켰기 때문일 수 있습니다.
아이디어는 위와 같이 매개 변수를 설정하고 GMM을 여러 번 호출 한 다음 혼합하여 하나의 (가령) 4 개의 가우스를 사용하여 샘플에 주어진 품질 측정 값을 비교합니다. 가장 좋은 숫자를 판단하기 위해 aic 및 bic으로 알려져 있습니다.
답변에 문제가있는 경우 이야기하십시오.
혼합 된 가우스를 식별하기 위해 원시 데이터를 사용할 수있는 방법과 위치가 표시되지 않습니다. – dilution