2014-06-10 3 views
0

나는 자신을 평가하는 방법을 모르지만 통계 및 기계 학습을위한 초보자들에게 자신을 바칠 것입니다.
최대 엔트로피 우도 (maximum entropy likelihood)와 주어진 분포의 밀도 함수에 대해 가장 높은 확률을주는 매개 변수를 추정하는 데 이들을 사용할 수있는 방법에 대해 읽었습니다.
"Maximum likelihood estimation of observer error-rates using the EM algorithm"이라는 멋진 종이를 발견했습니다. 이 논문에서는 환자의 진정한 대응이 가능하지 않더라도 패싯 (증상, 증상)의 오류율을 추정하기 위해 모델을 제시합니다. 7 페이지의 논문은 각 관찰자의 오류율과 한계 확률을 어떻게 추정 할 수 있는지를 설명하는 완전한 예제를 제공합니다. 그런 다음 각 환자에 대한 지표 변수를 계산하려고합니다. 나는 방정식 2.3과 2.4가 표 2의 결과를 얻는 데 사용되었다는 것을 이해했습니다. 결과가 표 4에서 계산되는 방법을 알아 내려고 많은 시간을 보냈습니다. 어떤 방정식에서 계산 되었습니까?EM 알고리즘을 사용하여 환자 관찰자의 확률을 계산하는 방법

답변

1

표 4의 수치는 환자 i 및 카테고리 j에 대한 데이터, 즉 p (T_ij = 1 | data)가 주어지면 각 카테고리에 속하는 각 환자의 최종 확률이다. EM 알고리즘의 E-step을 나타내는 식 2.5를 사용하여 계산됩니다. 보다 상세

: EM의 각 반복에서

이 알고리즘은 두 가지 작업을 수행

  • M 단계 : 변수의 최대 우도 추정 (계산 종류 martinals, p_j 및 오류율, pi_jlk)을 식 2.3 및 2.4를 사용하여 환자 범주 할당 (T_ij)의 현재 값을 기반으로 계산합니다.
  • E 단계 : T_ij = P (T_ij = 1 | 데이터)에 대한 계산 새로운 기대 파라미터 (p_j 및 pi_jlk)의 현재 값에 기초하여, 전류 값을 수학 식 2.5

전체 우도를 사용하여 는 모든 방정식의 방정식 2.7을 사용하여 계산할 수 있으며, 수렴 될 때까지 EM의 각 반복마다 단조롭게 증가해야합니다 (일단 매개 변수 값이 변경되지 않으면). 용지에 소정의 데이터에 대한

가 p_j 및 pi_jlk의 최종 추정치는 (것들 수렴되면) 표 2에 제시하고, T_ij의 최종 추정치는 표에 제시되어 여기서 제

는 인 간단한 파이썬의 알고리즘 구현과 예제를 본 논문에서 제공한다. (이 구현의 최종 추정값은 정밀도 나 초기화의 차이로 인해 용지에 주어진 것과 약간 다릅니다. https://github.com/dallascard/dawid_skene

관련 문제