Bayes Factor (베이즈 요인)
통계학에서 베이즈 요인(Bayes factors)는 hypothesis testing을 위한 대체 방법입니다. 이 방법으로 Bayesian model comparion을 할 수 있습니다.
모델 선택에서 모델을 M, 데이터를 D로 나타냈을때, 사후확률 (posterior probability)는 다음과 같이 나타낼 수 있습니다.
여기서 Pr(M|D)는 likelihood이며 주어진 데이터(D)가 어떤 특정한 모델(M)에 의해 생성되었다는 것을 전제로 함을 나타내고 있습니다.
주어진 데이터 (D)로 두개의 모델 M1과 M2를 수치화한 Θ1과 Θ2 를 써서 베이즈요인 K를 나타내면 다음과 같습니다.
여기서 베이즈 인자를 적분하는 대신에 최대우도 추정(Maximum likelihood estimation)을 쓴다면 이 공식은 그대로 likelihood-ratio test가 되겠지요.
하지만 likelihood-ratio test와는 달리 베이즈 요소 에서는 모든 변수(parameter)에 대해서 적분을 해버리기 대문에 하나의 변수에 의지하지 않는다는 것이 다른점입니다.
이렇게 구해진 베이즈 인자는 다음과 같이 해석할 수 있습니다.
K가 1보다 큰 경우에는 보통 M1이 데이터에 M2보다 더 잘 들어맞는다고 할 수 있습니다. 1보다 작을 경우에는 그 반대이구요. 하지만 이 수치의 크기에 따라서 하나의 모델이 다른하나에 비해서 얼마나 더 잘 들어맞느냐를 결정하는데요. 보통 이 수치가 1에서 1.6이하이면 별로 나을게 없네~ 라고 말하기도 합니다.
예를 하나 들어볼까요?
동전 던지기를 해서 앞면이 나오면 success, 뒷면이 나오는 fail을 하는 랜덤변수가 있다고 가정해 봅시다.
여기서 앞면이 나올 확률이 1/2이라는 가정을 모델1 (M1)이라고 하고 M2는 확률은 전혀 모르지만, 균등분포를 따른다고 가정하고 관찰 결과, 200번 던져서 115번 앞면이 나온다고 해봅시다.
이 예는 이항분포에 적용이 되어서 likelihood 또는 probability는 다음과 같이 나타낼 수 있습니다.
그러면 모델1은
또 모델2는
그러므로 베이즈요소 K는 약 1.197 정도 가 되는데요. 1.6보다 작으므로 별로 나을게 없네~~ 라고 말하시면 됩니다.
'Statistics and Probability' 카테고리의 다른 글
[MDF]확률과 통계의 기본개념 (0) | 2013.11.26 |
---|---|
Metropolis-Hastings algorithm (0) | 2012.12.07 |
모델 선택 (Model Selection) (0) | 2012.08.03 |
지수분포 (Exponential distribution) (1) | 2012.07.20 |
균등 분포 (Uniform distribution) (0) | 2012.07.20 |