본문 바로가기

학습공간/데이터마이닝방법론1

[2주차] 조건확률 이론 (조건확률, 기대값)

반응형

지난 1주차 수리통계 기초에서는 확률공간확률변수에 대한 개념을 다뤄보았다.

 

또한 확률변수가 취할 수 있는 수치에 대한 확률값을 나타내는 분포함수의 특징과,

 

2가지 경우(이산: 확률질량함수, 연속: 확률밀도함수)에 대한 표기법도 알게 되었다.

 

이제, 조건확률(Conditional Probability)조건기대치(Conditional Expectation)에 대해 알아보자.

 

※ 선행학습 - 기대치(Expectation)르베그적분(Lebesgue Integral)에 대하여..

- 기대치(Expectation)
- Expectation of X on
\({\color{Red}(\Omega, \mathcal{F}, P)}\)
   → 확률공간(Ω)에 대한 X 의 기대값
   · 기대치 또는 기대값이라고 하며, 모든 확률값에 대한 평균이다.
   · 모든 확률값에 대한 비중이 다르므로, 각각의 확률곱을 모두 더한 값이 되겠다.
   E(x) = \({\color{Red}\int_{Ω} }\) x \({\color{Red}dP}\) = \({\color{Red}\int_{-∞}^∞}\) x \({\color{Red}dF}\)(x)
   · X가 이산일 경우, 확률질량함수로 계산
   \(pmf=\sum\limits_{x} x Pr\{X=x\} \)
   · X가 연속일 경우, 확률밀도함수로 계산
   \(pdf=\int_{-∞}^{∞} x f(x)\, dx \)
   · ex) 상반기 실적이 100만원일 확률 50% + 하반기 실적이 50만원일 확률 50%
   = 금년도 기대값은 100*0.5 + 50*0.5 = 75만원 ...... E(x) = \(\sum\limits_{x} x P(X_n) \)
- 르베그적분(Lebesgue Integral)
   \(\int\) h \(dP\) 형태의 적분
   · 위 형태의 적분을 계산할 때에 사용하면 유용하다.
   · dF(x) 분포함수에 대하여 아래와 같이 대체 가능하고, 이것은 probability element 라고 부른다.
   → \({\color{Red}dP = P(d\omega) = dP(\omega) }\)
   · X가 이산(descrete)일 경우, P(x)→ Pr{X=x} 요소가 되고,
   \(probability\) \(mass\) \(function\)
   · X가 연속(continuous)일 경우, dF(x)→ f(x) dx 요소가 된다.
   \(probability\) \(density\) \(function \)
   ※ 함수에 대해 한번 미분한 형태(요소)

 

   ↓ reference youtube 수악선생

1. 조건부 확률(Conditional Probability)의 개념은 고등학교에서 배운 이 공식을 활용할 것이다.

조건부 확률 - 개념

조건부 확률은 어떠한 사건 A가 주어질 때, 사건 B가 영향을 받는 종속사상을 따른다.

 

※ 비복원추출 예) 한 상자에서 검은공 3개, 흰공 2개가 있는데 차례로 꺼내는 경우 (Ω is 5개.. 4개.. 3개..)

확률 계산에 있어서 비복원추출과 같은 표본공간(Ω)의 기준이 변하는 경우가 있는데, 

조건부 확률의 경우에도 이미 주어진 사건 A(given A) 확률에서 사건 B가 일어날 확률을 구하는 것이기 때문에,

이미 주어진 사건 A(given A)의 표본공간(Ω)으로 기준이 변경된다.

조건부 확률 - 예제

단순히 동전 던지기와 같은 확률(1/2)은 독립사상의 곱셈법칙 P(A∩B) = P(A) * P(B) 를 따르고,

이와 같은 경우에는 종속사상의 곱셈법칙 P(A∩B) = P(A) * P(B|A) = P(B) * P(A|B) 를 따른다.

 

  ↓ reference datascienceschool

* 결합(joint), 주변(marginal), 조건부(conditional) 확률분포에 대하여..

 1) 조건분포함수(영어: conditional distribution function)

  - 이제 위 내용을 분포함수에 적용해본다. 여태까지의 분포함수(이산: 확률질량함수, 연속: 확률밀도함수)는 1개의 확률변수(random variable)에 대한 확률 값(P)을 나타내는 2차원 그래프로 표현이 가능했다. 만약 확률변수가 2개일 경우에는 어떻게 표현하며, 그중 1개의 조건이 주어진다면 조건분포함수를 어떻게 구하는지 확인해보자.

 

  * 결합분포함수(영어: joint distribution function)

\(F({x, y}) ∴ Pr\{X≤x, Y≤y\} \)

결합분포함수와 조건분포함수

  * Y 가 주어졌을 때, X 에 대한 조건분포함수(conditional distribution function of X given Y)

\(F_{X|Y}({x|{\color{Red}y}}) ∴ Pr\{X≤x, Y=y\} \) ...... If given Y=y, Then conditional df

  - 조건부 확률 공식에 따라, y에 대한 확률값을 구한 뒤 y에 대한 x의 확률분포를 계산한다.

    -. 이산일 경우, 조건 확률질량함수(conditional pmf)

    ∴  \( \frac{Pr\{X≤x, Y=y\}}{{\color{Blue}Pr\{Y=y\}}} \)

    → 분모는 y에 대한 확률값 \({\color{Blue}Pr\{Y=y\}}\) 이 되겠다. 

 

    -. 연속일 경우, 조건 확률밀도함수(conditional pdf)

    ∴  \(\int_{-∞}^x f_{X|Y}(\xi|y)\, d\xi = \frac{1}{{\color{Blue}f_Y(y)}} \int_{-∞}^x f(\xi, y)\, d\xi \)

    → 분모는 y에 대한 주변분포함수(marginal distribution function of Y) \({\color{Blue}f_Y(y)}\) 가 되겠다.

 

- KEY NOTE

  -. \(f(x, y)\) = \( {\partial^2{\color{Blue}F(x, y)}\over\partial x\partial y} \) : \(f(x, y)\)는 \(F(x, y)\) joint pdf 를 두번 미분한 형태로 정의된다.

  -. \(f_Y(y)\) = \(\int_{-∞}^{∞} f(x, y)\, dx\) : x에 대한 확률값을 모두 적분하면 y에 대한 marginal pdf 를 구할 수 있다.

  -. \(f_X(x)\) = \(\int_{-∞}^{∞} f(x, y)\, dy\) : y에 대한 확률값을 모두 적분하면 x에 대한 marginal pdf 를 구할 수 있다.

  * 주변분포함수(영어: marginal distribution function)는 확률변수 2개의 결합분포함수(영어: joint distribution function)에서 어느 한쪽을 기준으로 다른 한쪽을 제거하여 확률변수 1개에 대한 분포함수로 나타낸것이다.

 

  * 조건확률질량함수(conditional pdf of X given Y)

  -. \({\color{Red}f_{X|Y}(x|y)} = \frac{f(x, y)}{f_Y(y)}\) : conditional pdf of X given Y

  -. 조건확률분포조건확률질량함수를 x 에 대해 적분해주면 구할 수 있다.

  → \(F_{X|Y}(x|y) = \int_{-∞}^{x} {\color{Red}f_{X|Y}(\xi|y)}\, d\xi\) : conditional df of X given Y ... [ξ ≤x]

 

예제 1) 결합확률질량함수(joint pdf)가 다음과 같이 주어졌을 때, 결합분포함수(joint df)를 구하고, y가 주어졌을 경우에 대한 조건분포함수(conditional df)를 구하시오.

∴ joint probability distribution function

\[f({x, y}) = \begin{cases} x+y, & \mbox{0}\lt\mbox{x}\lt\mbox{1, 0}\lt\mbox{y}\lt\mbox{1} \\ 0, & \mbox{otherwise} \end{cases} \]

 

∴ marginal probability distribution function of X

\[f_X({x}) = \int_0^1 (x+y)\, dy = \boldsymbol{x+\frac{1}{2}} \dots [{0}\lt{x}\lt{1}] \]

∴ marginal probability distribution function of Y

\[f_Y({y}) = \int_0^1 (x+y)\, dx = \boldsymbol{\frac{1}{2}+y} \dots [{0}\lt{y}\lt{1}] \]

∴ joint distribution function of X, Y

\[ \eqalign{ F(x, y) &= Pr\{X≤x, Y≤y\} \\ &= \int_0^x \int_0^y (x, y)\, dy\, dx \\ &= \int_0^x (xy+\frac{1}{2}y^2)\, dx \\ &= \frac{1}{2}x^2y+\frac{1}{2}y^2x \\ &= \boldsymbol{\frac{1}{2}xy(x+y)} } \]

 

∴ marginal distribution function of X ... [joint 표현: FX(x) = F(x, ∞)]

\[ \eqalign{ F_X(x) &= Pr\{X≤x\} = \int_0^x f_X({x})\, dx \\ &= \frac{1}{2}x^2+\frac{1}{2}x } \]

∴ marginal distribution function of Y ... [joint 표현: FY(y) = F(∞, y)]

\[ \eqalign{ F_Y(y) &= Pr\{Y≤y\} = \int_0^y f_Y({y})\, dy \\ &= \frac{1}{2}y^2+\frac{1}{2}y } \]

∴ conditional distribution function of X given Y

\[ \eqalign{ F_{X|Y}({x|y}) &= \int_0^x {\color{Red}\frac{f(x, y)}{f_Y(y)}}\, dx = \int_0^x {\color{Red}f_{X|Y}(x|y)}\, dx \\ &= \int_0^x {\color{Red}\frac{(x+y)}{\frac{1}{2}+y}}\, dx \\ &= \boldsymbol{\frac{1}{\frac{1}{2}+y} (\frac{1}{2}x^2+xy)} \dots [{0}\lt{x}\lt{1}] } \]

 

 * 전체 확률의 법칙(Law of total probability) 증명

∴ proposition :: 확률 모델을 할 때 자주 나오는 형태이기 때문에 반드시 암기하도록 한다.

\( \eqalign{ F(x, y) &= Pr\{X≤x, Y≤y\} \\ &= \int_{-∞}^y F(x|\eta)\, dF_Y(\eta) } \)
...... based on conditional distribution function

∴ proof :: 증명하기

  \(Pr\{X≤x|Y≤y\} \)

  = \(\int_{-∞}^y \int_{-∞}^x f(\xi, \eta)\, d\xi\, d\eta \) ...... X≤x, Y≤y일 확률을 구하려면, joint pdf 이용한다.

  = \(\int_{-∞}^y \int_{-∞}^x f(\xi|\eta)f_Y(\eta)\, d\xi\, d\eta \)

  = \(\int_{-∞}^y {\color{Red}\int_{-∞}^x f(\xi|\eta)\, d\xi}\, {\color{Blue}f_Y(\eta)\, d\eta} \) ...... conditional df, Lebesgue Integral

  = \(\int_{-∞}^y F_{X|Y}(x|\eta)\, dF_Y(\eta) \)

Law of total probability : y→∞ 이면 얻을 수 있다.
\[ \eqalign{ Pr\{X≤x\} &= Pr\{X≤x|Y≤∞\} \\ &= \int_{-∞}^{∞} F_{X|Y}(x|\eta)\, dF_Y(\eta) } \]
i) Y가 이산이면,
\[ \eqalign{ Pr\{X≤x\} &= \sum\limits_{y} Pr\{X≤x|Y=y\} Pr\{Y=y\} } \]
ii) Y가 연속이면,
\[ \eqalign{ Pr\{X≤x\} &= \int_{-∞}^{∞} F_{X|Y}(x|y)\, f_Y(y)\, dy \\ &= \int_{-∞}^{∞} Pr\{X≤x|Y=y\} f_Y(y)\, dy } \]

 

2. 조건부 기대치(Conditional Expectation)

∴ X, Y : random variable on \((\Omega, \mathcal{F}, P)\) 라고 정의할 때,

   \(g(x)\) : a function of X ...... then \(g(x)\) is also random variable.

 

The conditional expectation of \(g(x)\) given \(Y=y\) is given by

\(E[g(x)|Y=y]\) = \(\int_{-∞}^{∞} g(x)\, dF_{X|Y}(x|y)\) ...... using conditional pdf (a function of Y)

i) X, Y가 연속이면

  \(E[g(x)|Y=y]\) = \(\int_{-∞}^{∞} g(x)\, f_{X|Y}(x|y)\, dx\) ...... 르베그적분 변형

ii) X, Y가 이산이면

  \(E[g(x)|Y=y]\) = \(\sum\limits_{x} g(x) Pr\{X=x|Y=y\}\) = \(\sum\limits_{x} g(x) f_{X|Y}(x|y)\)

 

- KEY NOTE

  \(E[g(x)|Y=y]\)

  -. function of y ...... 반드시 y만의 함수가 되어야 한다.

  -. For any bounded function h,

     \(E[g(x)\, h(y)]\) = \(\int E[g(x)|Y=y]\, h(y)\, dF_Y(y)\) = \(E\{E[g(x)|Y]\, h(Y)\}\)

 

증명해보면,

  \(\int E[g(x)|Y=y]\, h(y)\, dF_Y(y) \)

  = \(\int E[g(x)|Y=y]\, h(y)\, f_Y(y)\, dy \) ...... 르베그적분 변형

  = \(\int [\int g(x)\, {\color{Blue}f_{X|Y}(x|y)}\, dx]\, h(y)\, f_Y(y)\, dy \)

  = \(\int [\int g(x)\, \frac{f(x, y)}{{\color{Red}\cancel{f_Y(y)}}}\, dx]\, h(y)\, {\color{Red}\cancel{f_Y(y)}}\, dy \) ...... 소거

  = \({\color{Blue}\iint} g(x)\, h(y)\, {\color{Blue}f(x, y)\, dx\, dy} \)

  = \(E[g(x)\, h(y)] \)

 

 * 총 기대 법칙(Law of total expectation) 증명 ...... with \(h(y) \equiv 1\)

∴ \(E[g(x)]\) = \(\int E[g(x)|Y=y]\, dF_Y(y)\) = \(EE[g(x)|Y] \)

i) Y가 이산이면

  \(E[g(X)] = \sum\limits_{y} E[g(x)|Y=y]\, Pr\{Y=y\}\)

ii) Y가 연속이면

  \(E[g(X)] = \int E[g(x)|Y=y]\, f_Y(y)\, dy\)

 

※ 여기에서 조건 확률조건 기대치의 특별한 경우라고 말할 수 있다.

 - conditional probability is a special case of conditional expectation.

⇒ indicator function 정의, [\({B\in \mathcal{F}}\)]

\[\unicode{x1D7D9}_B({w}) = \begin{cases} 1, & \mbox{if }w\mbox{∈B} \\ 0, & \mbox{otherwise} \end{cases} \]

    \(\mathbb{1}_{B} \) is a random variable on \((\Omega, \mathcal{F}, P)\)

    \(E\mathbb{1}_{B} \) = \(\int \mathbb{1}_{B}(w)P(dw) \) = \(P(B)\) ...... 확률은 기대치의 특별한 경우 !

 

    \(P(B|{\color{Blue}X})\) = \(E[\mathbb{1}_{B}|{\color{Blue}X}]\) = \(\int_{B} \mathbb{1}_{B}(w)P(dw|{\color{Blue}X})\) ...... X 조건은 반드시 집합일 필요는 없다. 경우에 따라 r/v 가능.

 

* Law of total probability and expectation

1) law of total

 -. probability : \(P(☆)\) = \(EP(☆|△)\) = \(\int_{△}P(☆|△)\, dF(△)\)

 -. expectation : \(E(☆)\) = \(EE[☆|△]\) = \(\int_{△}E[☆|△]\, dF(△)\)

 

2) 조건 기대치

 -. \(E[☆|△]\) = \(\int_{☆}☆\, dF(☆|△) \)

 

반응형