My Profile Photo

DongChanS's blog


수학과 학생의 개발일지


Edwith 베이지안딥러닝 (1) 확률이란?

아래 포스트는 최성준님 Edwith 강의 를 참고하여 작성되었습니다.


일상 생활에서 “주사위를 던져서 1이 나올 확률이 1/6이야.” 라는 말을 자주 쓰는데,

정작 그 확률이 무엇인지에 대해서는 설명하기가 쉽지 않습니다. 기껏해야 잠재적인 빈도..? 가 아닌가 정도로 말하기 바빴습니다.

최성준님의 Bayesian Deep Learning 강의의 도입부는 이런 확률을 수학을 이용해서 어떻게 설명하는지에 대해서 논하고 있습니다.

*[여담]이라고 적힌 부분은 읽지 않는게 좋습니다.

강의자료 다운로드


Introduction

확률을 설명하기 위해서는 우선 Set theory와 Measure theory에 대한 약간의 이해가 있어야 합니다.


Set theory

우리가 중학교 고등학교때 배우던 그 Set에 대한 내용들이 맞습니다.

교집합, 합집합, 원소개수, 전체집합, 부분집합, disjoint 이런 개념들은 익히 들어보셨을 겁니다. 그리고 들어보지 않았을 만한 몇 가지 개념에 대해 살펴보겠습니다.


  1. Partition

    말그대로 Set을 분할하는 것입니다. 서로 겹치는 부분이 없게 나눈다는 뜻이 됩니다.

1

2

예를 들어서 (1,2,3,4) 라는 set을 ( (1,2), (3),(4) ) 로 나눌 수 있는데,

겹치는 부분이 없게 나누며 + 나눠진 집합들은 원래 집합을 포함해야합니다.

Partition은 Measure의 설명을 위해 필요합니다.

  1. Power Set(멱집합)

    Power Set은 부분집합들의 Collection이라고 생각하면 쉽습니다.

    이 개념은 나중에 언급할 Sigma-Field의 설명을 위해 필요합니다.

    Cardinality에 대해서도 설명했지만, 중요하지않은 개념이라 패스


Set theory는 함수에 대해서도 다루는데요, 역시 함수도 우리가 중고등학교때 배운 그 것들입니다.

함수의 조건, 정의역, 공역,치역, 일대일 함수, 일대일 대응 같은 개념들은 다 알고 계실겁니다. 역시 낯설 만한 개념들에 대해서 살펴보겠습니다.


Image & Inverse Image

  1. 함수(f)는 기본적으로 정의역(D)이라는 집합 위에서 정의됩니다.

    그러면 이 정의역의 부분집합(A)에 대해서 생각해 볼 수 있겠죠.

    여기서 함수의 Image(상) 이란, 부분집합 A의 원소들이 함수 f를 통해서 대응되는 값들의 집합입니다.

    당연히 이러한 집합은 공역(C)의 부분집합이 되겠습니다. (치역의 부분집합이기도 하지요!)

  2. 반대로, 공역의 부분집합(B)에 대해서도 생각해볼 수 있는데요,

    함수의 Inverse Image(역상)란, 함수 f를 통해 부분집합 B의 원소로 대응되는 정의역의 원소들의 집합입니다.


역상은 매우 자주 쓰이는 개념인데요,

예를 들어서, 이미지들을 받아서 어떤 동물인지 분류하는 모델(함수)를 만든다고 했을 때, 고양이로 분류하는 이미지들을 찾기 위해서는 고양이에 대한 모델의 역상을 구해야합니다.


Measure theory

Measure란, 어떤 집합에 대해서 합리적인 값을 측정하는 함수라고 할 수 있습니다.

예를 들면, ‘땅’의 ‘땅값’을 도출하는 것도 일종의 Measure라고 할 수 있죠.

물론, 상식적으로 (멀티캠퍼스 1층(M1)의 땅값) 과 (멀티캠퍼스 2층(M2)의 땅값)을 합한 값은 (멀티캠퍼스 1층 + 멀티캠퍼스 2층(M1 U M2) 의 땅값)과 같아야합니다.

우리의 Measure도 이러한 성질을 만족하도록 설계되어 있습니다.

결론적으로 Measure를 배우는 이유는, 확률(Probability)도 Measure이기 때문입니다.


Sigma Field

measure를 알기 위해서는 먼저 Sigma field를 정의해야합니다.

5

굉장히 어렵게 설명되어있지만 간단한 개념입니다.

‘서울지역의 땅들’ 은 sigma field의 일종이라고 할 수 있는데요.

1번 성질은 쉽습니다. 공집합을 반드시 포함해야한다는 내용입니다.

‘아무 것도 없음’ 이라는 것도 생각해보겠다는 것이죠.

2번 성질의 예를 들면,

(성동구)도 서울지역의 땅이며, (성동구를 제외한 나머지 서울 땅)도 역시 서울지역의 땅입니다. 이러한 논리는 서울의 아무 땅을 들고 와도 적용할 수 있습니다.

역시 3번 성질의 예를 들면,

(성동구)와 (용산구)가 서울지역의 땅이며, (성동구 U 용산구) 역시 서울지역의 땅입니다. 이런 간단한 논리를 무한대까지 확장할 수 있다고 생각하시면 됩니다.


이러한 Sigma field를 정의하는 이유는, 이 Sigma field 위에서만 Measure를 정의할 수 있기 때문입니다.

예를 들어, 어떤 이상한 집합을 생각해봅시다.

이 집합은 멀티캠퍼스 1층, 2층, …, 20층을 각각 원소로 가지고 있는데,

만약 **‘멀티캠퍼스 건물 전체’ **를 원소로 가지고 있지 않다면 상식적으로 말이 안되는 집합이죠.

상식적으로 말이 안되기 때문에 이 집합에서는 Measure를 정의할 수도 없습니다.

(그런데 이런 집합은 수학적으로 존재할 수는 있잖아요? 그 집합들은 생각하지 않겠다는 겁니다.)


아까 설명한 Power set은 Sigma field의 일종입니다.

무식하게 모든 가능한 부분집합들을 원소로 가지는 집합이기 때문에 이 Power set은 가장 잘게 나눈 sigma field가 되는 것입니다.

또한 가장 쉽게 sigma field를 생성할 수 있는 방법이라 유용하게 쓰입니다.

(예를 들어서, 서울 전체의 Power set은 서울 지역의 땅들이고, 또한 이것은 sigma field인 것이죠.)


Measure

6

Measure는 Sigma field의 원소들에 대해서 정의되는 함수입니다.

그래서 Set을 대상으로 취급하기 때문에 Set function의 일종입니다.

위에서 설명했다시피 Measure는 매우 상식적이기 때문에

1) 항상 0 이상의 값을 가지며

2) 공집합(아무 것도 없는 상태)의 Measure는 0입니다.

3) (Partition의 원소들 각각)에 대한 Measure의 합은 (각각 Part들을 합친 전체집합)에 대한 Measure와 동일합니다.


Probability

확률도 일종의 Measure라고 했는데요, 주사위를 굴리는 상황을 예로 들어 봅시다.

=> 경우의 수는

        주사위가 1인 경우 = {1}

        주사위가 2인 경우 = {2}

        		...

        주사위가 6인 경우 = {6}

로써 6가지입니다. 이러한 경우들의 집합을 Sample Space라고 합니다.

그러면 아무리 이상한 모양의 주사위라 하더라도, 모든 경우가 일어날 확률의 합은 1이 되겠죠? 확률은 이러한 조건(4번)이 추가된 Normalized measure입니다.

7

중요한 점 : 확률은 Sample Space에서 정의되는 것이 아니라 Sample Space 위에서의 Sigma field 위에서 정의되는 것이다!!!

8

당연히 주사위가 2 , 4, 6일 확률은 (2일 확률) + (4일 확률) + (6일 확률)으로 생각할 수 있습니다.

이러한 방식으로 {1,2,3,4,5,6}의 모든 부분집합에 대해서 확률을 구할 수 있습니다.


확률이 Measure라는 좋은 성질을 이용해 다양한 Theorem들을 증명할 수 있습니다.

9

10

가장 중요한 Bayes rule도 확률의 기본 성질을 이용해서 쉽게 증명할 수 있습니다.

posterior와 prior에 대해서는 나중에 설명하겠습니다.

Random variable

통계학수업을 들어보셨으면 느끼셨겠지만 우리는 확률을 계산할 때 일일이 Sample Space를 들여다 보면서 계산하지 않고

Pmf( Probability mass function : 확률질량함수) 나 Pdf( Probability density function) 를 이용해서 계산한 적이 많았을 겁니다.

왜 그럴까요?

왜나하면 현실적으로 Sample space에는 크게 관심이 없기 때문입니다.


예를 들면, 친구들과 주사위를 굴려서 내기를 할 때

주사위가 몇이 나오느냐? 가 중요한게 아니라, 주사위로 내가 돈을 벌 확률은 몇인가? 가 관건이겠죠.

이러한 현실세계의 상황을 모델링하는 함수가 바로 Random Variable입니다.

우리는 Random Variable을 통해서 확률을 계산하기 때문에 pdf나 pmf를 사용하는 것입니다.

11

쉽게 말하면 Sample space의 각 원소(집합이 아님) 에서 실수로 대응되는 함수입니다.


[여담] 위의 표현이 잘 이해가 안되실 수 있습니다. 현실세계에서는 Real number들을 다루기 때문에 모든 interval을 포함하는 최소의 sigma field인 Borel sigma field를 이용해서 실수원소를 표현합니다. 따라서 그 실수원소들을 우리의 Random Variable가 성공적으로 표현할 수 있어야 합니다. 즉, 어떤 Sample Space의 부분집합(정확한 표현은 아닙니다)이 존재해서 그 Random Variable에 대응되는 실수원소값을 만들어낼 수 있어야 한다는 뜻입니다.


  • 왜 Random인가?

    Random이라는 말은 Sample space에서 뽑는 행위를 뜻한다!

    이러한 행위를 Random Variable을 통해서 현실화시킬 수 있다.

    그러면 역으로, Random Variable의 값을 통해서 그 값이 도출되는 Sample space의 원소들을 확인하고, 그것을 통해서 우리의 Measure를 이용하여 확률을 계산할 수 있다.

12

예를 들어서,

주사위가 4이상이 나오면 500원을 얻고, 3이하가 나오면 500원을 지불하는 내기를 한다고 합시다.

이러한 내기를

X(number) = { 500 if number >= 4

​ -500 otherwise }

로 Random Variable을 모델링함으로써 표현할 수 있습니다.

=> 그러면 우리는 실질적으로 X = 500인 경우에 초점을 맞추게 됩니다.


Probability density/mass function

예를 들어서,

X = 500일 확률을 측정하고 싶다고 한다면!

<=> 주사위가 4, 5, 6이 뽑혀야 한다!

<=> X = 500일 확률은 P({4,5,6}) = P({4}) + P({5}) + P({6}) = 1/2


즉, P( X = 500 ) = P ( {4,5,6} ) = 1/2 = p(500)

​ P( X = -500 ) = P ( {1,2,3} ) = 1/2 = p(-500)

이런 방식으로 Random Variable의 값에 대한 함수로 확률을 축약할 수 있습니다.

그러한 함수를 Probability mass function이라고 합니다.

13

만약 Random Variable이 가질 수 있는 값이 Continuous하게 존재한다면, 어떤 적분가능한 함수를 적분함으로써 Random Variable에 대한 확률을 구할 수 있습니다.

14


[여담] 위의 두 케이스를 보면 마치 r.v가 Continuous한 경우와 discrete한 경우에 대해서 확률의 정의를 특별히 다르게 하는가? 라고 느끼실 수 있지만 사실은 그렇지는 않습니다.

아까 확률을 measure로써 정의할 수 있다고 했지만, 무작정 모든 sigma field의 원소에 대해서 대응식을 정의하기가 쉽지 않습니다. 왜냐하면 sigma field의 원소에는 interval 이외에도 이상한 집합들이 많기 때문입니다.

그리고, 르벡적분이라는 개념이 있습니다. 이 르벡적분이라는 것은, 함수의 적분값을 이상한 집합에 대해서도 구할 수 있는 방식인데요, interval에 대해서는 리만적분이랑 호환되기때문에 수학적으로 정의하기가 편리합니다.

따라서, 확률을 sigma field의 원소에서의 어떤 함수(density function)의 르벡적분으로 정의한다면, sigma field의 이상한 원소들에 대해서도 효과적으로 정의할 수 있습니다. 그리고 이 정의를 이용하여도 measure의 조건은 만족합니다.

[르벡적분의 형상화]

15

아까 Random Variable에 대한 확률은 Random Variable의 역상에 대한 확률메져의 값으로 표현할 수 있다고 했습니다. 즉, Random Variable의 역상에서의 density function의 르벡적분으로 확률을 표현할 수 있습니다.

만약 Random Variable이 discrete하다면 Random Variable의 각 값에 대한 역상이 discrete하므로 확률을 각 역상의 sum으로 분할하여 Random Variable에 대한 확률을 구할 수 있습니다.

continuous하다면 그럴 수 없기 때문에 르벡적분으로 확률을 표현할 수 밖에 없는데, 만약 interval에 대해서 적분을 한다면 르벡적분을 호환되는 리만적분으로 바꿔서 표현할 수 있습니다.

comments powered by Disqus