2017-03-16 1 views
-1

생물학적 데이터에 속하는 분포가 다릅니다.R 또는 Python - 특정 이론적 인 multimodal 분포를 시뮬레이션하십시오.

example of distribution

이 분포 하나의 모달 분포 (mean = 0.5), 중 봉성 (0.330.66) 또는 모달 분포 (0.25, 0.5, 0.75) 하나를 따르 것으로 예상된다.

내가 원하는 것은 생물학적 데이터에서 얻은 것과 파이썬이나 R을 비교하기 위해 이러한 "이론적 인"분포를 시뮬레이션하는 것입니다.

이상의 내용을 통해 비교할 매개 변수가 무엇인지 궁금합니다. 모양, 표준 편차, 왜곡 및 첨도?

답변

-1

단일 모달 분포를 따르는 것처럼 보이는 데이터는 종종 하나 또는 두 개의 가우시안이 혼합되어 모델링 될 수 있습니다. 마찬가지로, 바이 모달 분포 (bimodal distribution)를 따르는 것처럼 보이는 데이터는 때로는 2 또는 3의 혼합으로 모델링되는 것이 가장 좋습니다. 히스토그램이 생성 된 원시 데이터가 여전히있는 경우 sklearn의 기능을 사용하여 데이터에 '가장 적합한'혼합 된 가우스를 식별 할 수 있습니다. 방법을 보여주는 http://www.astroml.org/book_figures/chapter4/fig_GMM_1D.html의 코드가 있습니다. 그런 모델을 얻은 후에는 해당 코드에 표시된 기술을 사용하여 의사 무작위 샘플을 생성 할 수 있습니다.

gmm = GMM(3, n_iter=1) 
gmm.means_ = np.array([[-1], [0], [3]]) 
gmm.covars_ = np.array([[1.5], [1], [0.5]]) ** 2 
gmm.weights_ = np.array([0.3, 0.5, 0.2]) 

따라서 그들의 수단이, 혼합물의 가우시안의 개수의 명령문 필요 그 공분산 행렬 및 아마도 상대적 가중치 세트 :

는 I 코드는 것을 알 각 가우스 샘플을 샘플링 한 횟수

편집 : 내가이 답변을 향상시킬 수 있도록 아래 투표를 한 이유를 추측하려고합니다. 설명이 부족한 링크를 포함 시켰기 때문일 수 있습니다.

아이디어는 위와 같이 매개 변수를 설정하고 GMM을 여러 번 호출 한 다음 혼합하여 하나의 (가령) 4 개의 가우스를 사용하여 샘플에 주어진 품질 측정 값을 비교합니다. 가장 좋은 숫자를 판단하기 위해 aicbic으로 알려져 있습니다.

답변에 문제가있는 경우 이야기하십시오.

+0

혼합 된 가우스를 식별하기 위해 원시 데이터를 사용할 수있는 방법과 위치가 표시되지 않습니다. – dilution

관련 문제