'Statistics and Probability'에 해당되는 글 15건

  1. 2012.07.20 지수분포 (Exponential distribution) 1
  2. 2012.07.20 균등 분포 (Uniform distribution)
  3. 2012.07.14 이항분포 (binomial Distribution) 1
  4. 2012.07.11 Monte Carlo Method (몬테카를로법) 1
  5. 2012.06.26 공분산 (Covariance)
Statistics and Probability2012. 7. 20. 11:45
반응형

지수분포 (Exponential Distribution)

 

연속확률분포의 한 종류 중에 지수분포가 있습니다.

지수분포는 지정쇤 시점으로부터 어떤 사건이 일어날 때까지 걸리는 시간을 측정하는 확률 분포입니다.

예를 들어서, 한 병원에서 환자를 치료하는 데 걸리는 시간 같은것 들은 지수분포를 따르고, 주로 경영, 경제 관련 변수들은 흔히 지수분포를 따른다고 하네요.

 

좀더 자세히 들여다 볼까요?

 

어떤 사건이 단위구간당 평균 λ회 발생하는 포아송 분포를 따른다고 가정해 봅시다.

이 때, t구간에서 일어나는 평균 사건 수는 λt 회가 됩니다.

이 평균 사건 수를 확률변수 X로 나타낸다면, 이 X는 평균이 λt인 포아송 분포를 따르겠죠.

이걸 수식으로 나타내 보겠습니다.

 

그럼 이때, 지정된 시점 (여기서는 t=0이라고하죠)으로부터 처음 사건이 일어날 때까지 걸린 시간을 확률변수 T로 정의 한다면, T≥t 일 확률은 (0,t) 구간에서 사건이 한번도 일어나지 않을 확률 (X=0)과 같으므로 다음과 같이 됩니다.

 

 

여기서 확률변수 T의 누적분포함수(CDF)를 구해보면

 

가 되고, 확률밀도함수(pdf)는 이걸 미분해주면되겠죠?

그러므로 확률밀도함수는

 

가 됩니다.

 

지수분포의 평균과 분산은 다음과 같습니다.

 

 

 

 

728x90
반응형
Posted by Gun들지마
Statistics and Probability2012. 7. 20. 11:24
반응형

균등분포 (Uniform distribution)

 

연속확률변수는 이산확률변수와는 달리, 확률변수가 취할 수 있는 값들이 무한하기 때문에 취할 수 있는 모든 값들을 열거할 수가 없습니다. 그리고 연속확률변수가 어떤 특정한 값을 취할 확률도 거의 0이 되기 때문에 연속확률변수가 특정한 값을 취할 확률을 고려하는 것은 무의미합니다.

예를 들어서 제가 어제 게임을 이베이에서 하나 주문을 했는데, 그 게임이 주문후에 배달까지 걸리는 시간이 연속확률변수입니다.

배달까지 걸리는 시간이 48시간54분50초일 확률은 거의 0입니다. 이 변수는 무한하게 많은 실수값을 취할 수 있고 어떤 특정한 시간을 취할 확률은 0에 가끕습니다. 그러므로 이런 경우에는 어떤 구간을 정하여 구분할 수 있습니다. 이틀후 아침에서 오후 사이라고 하면 구분하기가 훨씬 쉽죠. 이러한 변수들을 분포로 나타낸것이 연속확률분포이며, 이 연속확률분포에서 가장 단순한 분포의 형태가 균등분포 (Uniform distribution)입니다.

 

균등분포는 일정구간 내의 값들이 나타날 가능성이 동일한 분포입니다.

균등 분포의 확률밀도함수는 다음과 같습니다.

 

728x90
반응형
Posted by Gun들지마
Statistics and Probability2012. 7. 14. 02:24
반응형

이항분포

 

이산확률분포 (Discrete distribution)에는 여러가지가 있는데, 그중 가장 기본인 이항분포에 대해서 알아보겠습니다.

 

이항분포에서 실험의 결과는 서로 배타적 (mutually exclusive)이며 전체를 포괄하는 두가지 사건(성공 혹은 실패)로만 나타납니다.

예를 들어서 가장 유명한 동전의 앞/뒷면의 경우가 있겠구요. 생산된 상품의 불량여부, 어떤 집단의 남녀 성별 여부 등이 있겠습니다.

이러한 실험들은 모두 두가지 결과만을 기대할 수 있는데, 이런 시행을 베르누이 시행 (Bernoulli trial)이라고 합니다.

이때, 성공의 확률을 p로 나타낸다면 실패의 확률은 1-p가 됩니다. (합쳐서 1이지요)

 

이 베르누이 시행을 여러번 한다고 가정하고, 시행을 반복할 때의 성공 횟수를 고려해봅시다. 이 성공의 횟수는 이항 확률 변수 (binomial random variable)이 됩니다. n번의 실행을 한다고 했을대, 이 이항확률변수는 0에서 n까지의 하나의 값을 취하게 되고, 이 변수의 분포를 이항확률분포(binomial probability distribution)이라고 합니다.

 

예를 들어서 한 회사의 신입사원이 남자일 확률이 p라고 가정해봅시다. 이번달 신입사원의 수가 3명일 때, 이항확률변수는 0에서 3까지 가능합니다. 이 이항분포를 수식으로 나타내보면

 

남자의수(x)        P(x)

0                        (1-p)^3

1                        3p(1-p)^2

2                        3(1-p)p^2

3                        p^3

이 됩니다.

 

이러한 결과를 수식으로 도출해보면

 

위와 같이 나타낼 수가 있습니다.

 

그럼 예를 들어서 계산을 한번 해불까요??

한 학급에 여자가 3/5, 남자가 2/5라고 할때, 임의로 학생을 5명 뽑았을때 남자가 3명일 확률은 얼마일까요??

X를 남자라고하고 p는 그럼 0.4가되겠지요. n은 5이고 x는 3입니다.

그러므로

 

직접 계산해 보시기 바랍니다 ㅎㅎ

 

이러한 이항분포의 성질에서 평균, 분산, 및 표준편차를 구할 수가 있겠는데요.

이항분포의 평균은

 

분산은

 

그리고 표준편차는 분산에 루트를 입힌 꼴이 되겠습니다.

 

위의 예제로 들면, 5명을 뽑았을때 평균 남자수는 5 곱하기 2/5로 2이구요.

분산은 5곱하기 2/5곱하기3/5이므로 1.2가 되겠네요.

728x90
반응형
Posted by Gun들지마
Statistics and Probability2012. 7. 11. 01:40
반응형

몬테카를로 법 (Monte Carlo Method)

 

위키피디아에 의하면, 몬테카를로 법은 물리적 수학적 시스템의 행동을 시뮬레이션하기 위한 계산 알고리즘 이라고 합니다. 다른 알고리즘과는 달리 통계학적이고, 일반적으로 무작위의 숫자를 사용하는 비결정적인 방법이라네요.

몬테카를로 시뮬레이션의 응용분야는 높은 자유도를 갖는 액체, 무질서한 물질, 강결합된 고체 등의 시스템을 연구하는데 유용하다고 합니다.

 

이게 뭔소리야? 라고 생각해서 위키피디아의 영문판을 살펴보았습니다.

 

몬테카를로 법은 결과를 계산하기 위해 랜덤한 샘플의 반복으로 구하는 계산 알고리즘입니다. 자유도(degrees of freedom)이 높은 시스템을 시뮬레이션하기 위해 주로 쓰여지구요.

 

몬테카를로 법의 계산은 다양하지만, 주로 4가지의 절차를 따릅니다.

1. 가능한 입력상수의 범위를 정의합니다.

2. 입력상수의 범위 안에서 확률분포를 통해 입력상수를 생성합니다.

3. 생성된 입력상수에 대한 계산을 합니다.

4. 계산 결과를 종합합니다.

 

예를 들어볼까요?

가로세로가 1인 정사각형안에 접하는 원을 그려봅시다. 원과 정사각형의 넓이가 pi : 4 의 비율일때(간단히 계산가능하죠?), pi는 몬테카를로 법에의해 추측될 수 있습니다. 위의 네가지 절차를 따라보죠.

 

 1. 일단 정사각형을 그리고 그안에 원을 그립니다.

 (내접하는 원 그렸음 ㅋ)

2. 정사각형위에 같은 크기의 가진 물질(모래나 쌀 등)을 골고루 분포합니다.

3. 분포한 쌀(혹은 모래)의 전체 갯수를 세고, 원안에 들어가있는 갯수를 셉니다.

4. 그 두 갯수의 비율이 정사각형과 원의 넓이의 비율이겠죠. 정사각형의 넓이가 4 이므로, 앞의 측정한 비율을 4에 맞춰준다면 pi(원주율)을 추측할 수 있습니다.

 

아니 이게 뭐야? 이게다야? 라고 생각하실 수도 있는데, 저는 그렇게 생각했답니다.

그래서 좀 더 자세히 들여다 봤습니다.

첫번째로 정사각형을 그리고 내접하는 원을 그리는 것은 입력상수의 범위를 제한하는 겁니다.

두번째로 쌀알을 골고루 분포하는데, 여기서 분포는 확률분포의 개념이 들어갈 수가 있겠죠. 분포를 랜덤하게 하는가, 아니면 일반분포를 쓰는가에 따라 분포의 종류가 많이 바뀌겠네요.

세번째와 네번째로 분포된 입력상수를 계산하고 결과를 종합하는게 숫자를 세고 비율을 곱하는 거겠죠.

실제로 원주율을 컴퓨터로 구한다고 했을 때 여러가지 어려운 계산방법으로 완전 복잡한 계산을 해야된다고 합니다.

그런데 방금 말한 간단한 방법으로 원주율을 정확하게는 아니더라도 어느정도 가깝게 구할 수가 있는거죠.

물론 쌀알보다 작은 모래알로 하면(횟수를 늘리면) 더욱 정확한 추측이 되겠죠.

이런 식으로 몬테카를로법은 이론적인 지식만으로 계산하기 어려운 수치들을 구할 필요가 있을때에 널리 쓰인다고 합니다.

 

 

 

 

728x90
반응형
Posted by Gun들지마
Statistics and Probability2012. 6. 26. 14:29
반응형

공분산(Covariance)란 두 확률변수 X,Y가 있을 때 각각의 확률변수와 그 평균과의 편차를 서로 곱한 결과에 기대값을 취하는 것입니다.

 

이 공분산은 X가 커질때 Y도 커진다면 양의 값, X가 커질때 Y가 작아진다면 음의 값, X와Y가 아무런 관계도 갖지 않으면 0이 됩니다.

 

그러므로 공분산은 두 확률변수의 연관성을 나타내어 줍니다.

 

공분산의 정의는 다음과 같습니다.

 

 

하지만 공분산은 두 확률변수 간에 어떤 상관관계가 존재하는지만을 알려주고, 어느 정도의 상관관계가 존재하는지 정확히 알려줄 수 없습니다. 그러므로 상관계수(correlation coefficient)라는 개념이 도입되었는데요.

이 상관계수는 -1과 1사이이고, 값이 0일때 두 확률변수간의 상관관계가 없음을 나타냅니다.

상관계수는 다음과 같이 정의합니다.

 

728x90
반응형
Posted by Gun들지마