본문 바로가기

학습공간/데이터마이닝방법론1

[1주차] 수리통계 기초 (확률공간, 확률변수)

반응형

머신러닝 개발을 위한 통계적 학습 이론(Statistical Learning Theory, 이하 SLT)은 빅데이터를 처리하기 위한 고등 수리통계이론이다.

 

인공지능 개발자로서의 최소 기본이론이며, 코딩은 다루지 않고 수학적 이론을 위주로 진행한다.

 

먼저, 확률공간(Probability Space)확률변수(Random Variable)에 대해 알아보자.

 

1. 확률공간(Ω, F, Pr)은 공간 전체의 측도가 1인 측도 공간이다. (표기: Pr(Ω) = 1)

 - 측도(영어: measure)는 특정 부분 집합에 대해 일종의 '크기'를 부여하며, 그 크기를 가산개로 쪼개어 계산할 수 있게 하는 함수이다. 즉, 어떠한 사건 S 가 표본들의 집합 Ω 의 부분 집합일 경우, 가산개의 사건들이 주어졌을 때 어떤 사건도 일어나지 않는 경우(여집합) 역시 사건이며, 사건들 가운데 적어도 하나가 일어나는 경우(합집합)도 사건이고, 사건들 모두가 일어나는 경우(교집합) 역시 사건을 이룬다. 또한 불가능한 사건(공집합)과 필연적인 사건(전체집합)도 사건이다.

 

확률론에서는 측도론 용어와 다른 각종 용어들이 사용된다.

확률공간의 점들의 집합 Ω(영어: omega) 는 표본 공간(영어sample space)이라고 한다.

확률공간의 가측 집합(영어: measurable set) S F 은 사건(영어: event) 이라고 한다.

사건 S F 의 측도 Pr(S) 는 사건의 확률(영어: probability) 이라고 한다.   ※ 출처: 위키백과 - 확률 공간

 

확률공간(Ω, F, Pr)의 세가지 요소를 주사위 던지기와 비교하여 정리하면,

   - Ω : 가능한 모든 결과의 집합(The Set of All possible outcomes)이며, 표본 공간(Sample Space)이라고 부른다.

     -. 주사위의 경우 표본 공간, outcomes are Ω = {1, 2, 3, 4, 5, 6}

   - F : 확률 계산이 가능한 사건들의 집합(The Set of Events)이며, 시그마 필드(Sigma Field)라고 부른다.

     -. 주사위의 경우 시그마 필드, event S is Subset of Ω (S ⊂ Ω) 짝수가 나오는 사건 S = {2, 4, 6}

   - Pr(S) : 사건 S 가 나올 확률(Probability of Event S)이며, *시그마 필드의 가측 집합(S ∈ F)이다.

     -. 주사위의 경우 확률, 짝수가 나올 확률 Pr(S)는 50%이다.

 

다시말하면 표본 공간사건의 집합에 대하여 어떠한 사건 A가 발생할 수 있는 확률이라고 볼 수 있다.

표본과 표본공간(출처: datascienceschool.net)

※ 참고: 정의역, 치역, 공역, 함숫값이란? ......... * 확률변수란 하나의 함수(consider a function)이다.

2. 확률변수(Random Variable)확률공간에서 다른 가측공간으로 가는 가측 함수이다.

 - 가측 함수(영어: measurable function)는 원상에 대한 가측성을 보존하는 함수이다. 즉, 정의역 표본의 집합(Ω)에서 공역 실수 전체의 집합(Real Number)으로의 함수 h이고 h: Ω→R 또는 r = h(ω) 으로 표기한다. 

 

치역 P 확률을 계산해보자. (함숫값은 a와 b사이에 있고 B=[a, b] 으로 표기한다.) a와 b사이에 있을 확률은,

Consider a function h: Ω→R, We are interested in the probability that a ≤ h(ω) ≤ b

=> Compute P{m: h(ω) ∈ B}, and B=[a, b]

=> The Set {m: h(ω) ∈ B} must belong to F(Sigma Field)

 

가측 함수(영어: measureable function)에 대한 정의,

{m: h(ω) ∈ B} = h-¹(B) 기존에 정의한 집합을 h의 역함수라고 하자. [B 가 나올 수 있는 모든 정의역]

If h-¹(B) ∈ F, for each interval B, then h is a measurable function.

=> h 와 관련된 사건의 확률을 계산할 수 있다.

 

* h is called "Random Variable" 이때 h 는 확률변수(가측 함수)라고 부른다.

이 말은 h: (Ω, F) → (R, B) 이렇게 정의할 수가 있고, h-¹(B) ∈ F 사건의 집합에 들어간다.

또한 ∀B ∈ F 모든 B 역시 사건의 집합에 들어간다.

 

※ 참고: 분포함수에 앞서 확률분포란? 이산(discrete) 확률분포와 연속(continuous) 확률분포

3. 확률변수의 분포함수(Distribution Function of Random Variable)란?

 - 확률함수는 확률변수가 취할 수 있는 수치에 대한 확률값이 얼마인지 나타내는 함수이다. 

 - 일반적으로 분포함수는 F(x) = Pr{X ≤ x} = P(-∞, x) 으로 표현한다.

 

0) 누적 분포함수(영어: distribution function)의 특징

 - 특징 a) F(x'') - F(x') ≥ 0 it x'' > x' ......... 비감소(non-decreasing) 함수

 - 특징 b) F(-∞) = 0 ......... 하한 0(lower-limit)

 - 특징 c) F(+∞) = 1 ......... 상한 1(upper-limit)

 - 특징 d) F(x+o) = F(x) ......... 우연속(right-continuous) 함수

 

1) 이산 확률변수에서의 확률질량함수(영어: probability mass function)

 - 그림1) 산포가 일어나는 곳 Xⁿ에서 확률값 P(Xⁿ)을 가지게 된다.

그림 1

 - X 가 이산이면(discrete) : F 는 계단함수(Step Function)이다.

 - 이와 같은 경우는 Pr{X=x} = F(x) - F(x-o) 왼쪽에서 접근한 경우가 되겠다.

 

2) 연속 확률변수에서의 확률밀도함수(영어: probability density function)

 - 그림2) (절대)연속 확률변수 x에 대해서 x의 확률밀도함수는 아래와 같이 정의한다. 밀도 = 질량 / 부피

그림 2

 - X 가 연속이면(continuous) : f(x) 확률밀도함수(Probability Density Function)라고 한다.

 - 이와 같은 경우는 \(f(x)\ =Pr \{X≤x\}=\int_{-∞}^x f(x)\, dx \) 표기하고, \(Pr \{X=x\}= 0 \) 한 점에서의 확률은 0 이다.

 

이상으로 수리통계 기초를 마치고 다음장에서 조건확률 이론과 기대치에 대해서 공부하도록 하겠다.

반응형