로그 정규 분포에 일부 데이터를 맞추려고하고 있으며 이로부터 최적화 된 매개 변수를 사용하여 임의의 로그 정규 분포를 생성합니다. 일부 검색 후 I 일부 솔루션을 찾았지만 설득력 없음 :은 관찰 된 데이터의 모양을 사용하여 임의의 로그 정규 분포를 생성합니다.
solution1 적합성 함수 사용 :
import numpy as np
from scipy.stats import lognorm
mydata = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,6,6,6,6,6,7,7,7,8,8,8,8,8,9,9,9,10,10,11,12,13,14,14,15,19,19,21,23,25,27,28,30,31,36,41,45,48,52,55,60,68,75,86,118,159,207,354]
shape, loc, scale = lognorm.fit(mydata)
rnd_log = lognorm.rvs (shape, loc=loc, scale=scale, size=100)
또는 용액 2는 원래의 데이터로부터 MU 시그마 사용 :
import numpy as np
from scipy.stats import lognorm
mydata = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,6,6,6,6,6,7,7,7,8,8,8,8,8,9,9,9,10,10,11,12,13,14,14,15,19,19,21,23,25,27,28,30,31,36,41,45,48,52,55,60,68,75,86,118,159,207,354]
mu = np.mean([np.log(i) for i in mydata])
sigma = np.std([np.log(i) for i in mydata])
distr = lognorm(mu, sigma)
rnd_log = distr.rvs (size=100)
을
이러한 솔루션 중 어느 것도 적합하지 않습니다.
,753,993,내가 잘 분포를 사용하는 방법을 이해하고 있는지 확실하지 않다, 또는 뭔가 다른 말이냐하면 ...
그래도 난 여기 해결책을 찾는 : Does anyone have example code of using scipy.stats.distributions? 하지만 난 모양을 얻을 수 아니다 내 데이터에서 ... 나는 fit 함수의 사용에있어서 뭔가를 놓치고 있습니까?
감사
편집 :
print 'solution 1:'
means = []
stdes = []
distr = lognorm(mu, sigma)
for _ in xrange(1000):
rnd_log = distr.rvs (size=100)
means.append (np.mean([np.log(i) for i in rnd_log]))
stdes.append (np.std ([np.log(i) for i in rnd_log]))
print 'observed mean:',mu , 'mean simulated mean:', np.mean (means)
print 'observed std :',sigma, 'mean simulated std :', np.mean (stdes)
print '\nsolution 2:'
means = []
stdes = []
shape, loc, scale = lognorm.fit(mydata)
for _ in xrange(1000):
rnd_log = lognorm.rvs (shape, loc=loc, scale=scale, size=100)
means.append (np.mean([np.log(i) for i in rnd_log]))
stdes.append (np.std ([np.log(i) for i in rnd_log]))
print 'observed mean:',mu , 'mean simulated mean:', np.mean (means)
print 'observed std :',sigma, 'mean simulated std :', np.mean (stdes)
결과는 다음과 같습니다 :
solution 1:
observed mean: 1.82562655734 mean simulated mean: 1.18929982267
observed std : 1.39003773799 mean simulated std : 0.88985924363
solution 2:
observed mean: 1.82562655734 mean simulated mean: 4.50608084668
observed std : 1.39003773799 mean simulated std : 5.44206119499
이 순서 더 내 문제를 이해하기에 예입니다
내가 R에 동일한 작업을 수행하는 경우
동안은 :
mydata <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,6,6,6,6,6,7,7,7,8,8,8,8,8,9,9,9,10,10,11,12,13,14,14,15,19,19,21,23,25,27,28,30,31,36,41,45,48,52,55,60,68,75,86,118,159,207,354)
meanlog <- mean(log(mydata))
sdlog <- sd(log(mydata))
means <- c()
stdes <- c()
for (i in 1:1000){
rnd.log <- rlnorm(length(mydata), meanlog, sdlog)
means <- c(means, mean(log(rnd.log)))
stdes <- c(stdes, sd(log(rnd.log)))
}
print (paste('observed mean:',meanlog,'mean simulated mean:',mean(means),sep=' '))
print (paste('observed std :',sdlog ,'mean simulated std :',mean(stdes),sep=' '))
내가 얻을 :
[1] "observed mean: 1.82562655733507 mean simulated mean: 1.82307191072317"
[1] "observed std : 1.39704049131865 mean simulated std : 1.39736545866904"
훨씬 더 가까운 , 그래서 scipy를 사용할 때 내가 뭔가 잘못하고있는 중이 야 같아요. ..
무엇 이 mydata 배열입니까? 피팅의 경우 x 값과 y 값을 볼 수 있습니다 ...이 배열을 어떻게 해석해야합니까? – Tanriol
[로그 정규 분포에 대한 매개 변수 추정에 관한 많은 논문] (http://scholar.google.com/scholar?q=lognormal+parameter+estimation&hl=en&as_sdt=0&as_vis=1&oi=scholart) 중 어느 것을 보았습니까? –
오케이, 미안 해요, 제 질문이 충분하지 않다고 생각합니다. 나는 그것을 편집한다. – fransua