반응형

Bayes Factor (베이즈 요인)

 

통계학에서 베이즈 요인(Bayes factors)는 hypothesis testing을 위한 대체 방법입니다. 이 방법으로 Bayesian model comparion을 할 수 있습니다.

 

모델 선택에서 모델을 M, 데이터를 D로 나타냈을때, 사후확률 (posterior probability)는 다음과 같이 나타낼 수 있습니다.

 

 

여기서 Pr(M|D)는 likelihood이며 주어진 데이터(D)가 어떤 특정한 모델(M)에 의해 생성되었다는 것을 전제로 함을 나타내고 있습니다.

주어진 데이터 (D)로 두개의 모델 M1과 M2를 수치화한 Θ1과 Θ2 를 써서 베이즈요인 K를 나타내면 다음과 같습니다.

 

여기서 베이즈 인자를 적분하는 대신에 최대우도 추정(Maximum likelihood estimation)을 쓴다면 이 공식은 그대로 likelihood-ratio test가 되겠지요.

하지만 likelihood-ratio test와는 달리 베이즈 요소 에서는 모든 변수(parameter)에 대해서 적분을 해버리기 대문에 하나의 변수에 의지하지 않는다는 것이 다른점입니다.

 

이렇게 구해진 베이즈 인자는 다음과 같이 해석할 수 있습니다.

K가 1보다 큰 경우에는 보통 M1이 데이터에 M2보다 더 잘 들어맞는다고 할 수 있습니다. 1보다 작을 경우에는 그 반대이구요. 하지만 이 수치의 크기에 따라서 하나의 모델이 다른하나에 비해서 얼마나 더 잘 들어맞느냐를 결정하는데요. 보통 이 수치가 1에서 1.6이하이면 별로 나을게 없네~ 라고 말하기도 합니다. 

 

예를 하나 들어볼까요?

동전 던지기를 해서 앞면이 나오면 success, 뒷면이 나오는 fail을 하는 랜덤변수가 있다고 가정해 봅시다.

여기서 앞면이 나올 확률이 1/2이라는 가정을 모델1 (M1)이라고 하고 M2는 확률은 전혀 모르지만, 균등분포를 따른다고 가정하고 관찰 결과, 200번 던져서 115번 앞면이 나온다고 해봅시다.

이 예는 이항분포에 적용이 되어서 likelihood 또는 probability는 다음과 같이 나타낼 수 있습니다.

 

그러면 모델1은

 

또 모델2는

 

 

그러므로 베이즈요소 K는 약 1.197 정도 가 되는데요. 1.6보다 작으므로 별로 나을게 없네~~ 라고 말하시면 됩니다.

 

 

728x90
반응형
Posted by Gun들지마