확률론(Probability theory)을 정식으로 배워본 적이 없었기 때문에, 관련논문을 찾아볼 때마다 늘 불편했던 기억이 있다. 우선 논문의 맨 첫줄부터 막히곤 했는데, 확률공간(Probability space)이라는 개념이었다. 이 포스트는 당시의 기억을 살려, 확률의 수학적인 정의를 위해 필요한 기본적인 개념을 이해하는 데에 그 목적이 있다. 아울러 확률의 정의로부터 파생된 확률의 주요성질에 대해서도 같이 정리한다.
이 포스트를 이해하기 위해 선행적으로 필요하다고 생각되는 개념들을 미리 소개한다.
임의의 집합 에 대하여, 의 모든 부분집합들의 집합을 Power set (멱집합)이라고 하고, 1로 표기한다. 예를들어 인 경우, Power set은 다음과 같이 나타낼 수 있다.
어떤 집합의 원소들을 자연수처럼 명시적(하나, 둘, 셋…)으로 셀 수 있다면, 해당 집합을 Countable set (가산집합)이라고 한다. 반면 Countable set이 아닌 집합을 Uncountable set (비가산집합) 또는 Uncountably infinite set 이라고 한다. 대표적인 Uncountable set 으로는 실수공간 이 있다. Countable의 개념를 엄밀히 이해하기 위해서는 집합론(Set theory) 이라는 도구의 도움이 필요하나, 이 포스트에서 자세한 설명은 생략하겠다.
서로 다른 집합 에 대하여 일 때, 와 가 Disjoint (또는 Mutually exclusive) 라고 한다. Disjoint한 집합들을 원소로 갖는 집합을 Pairwise disjoint set (또는 Mutually disjoint set) 이라고 한다. 예를들어 다음 집합은 Pairwise disjoint set 이다.
어떤 집합 에 대하여, Pairwise disjoint set 이 를 만족할 때, 를 의 Partition 이라고 한다.
임의의 집합 에 대하여, 어떤 집합 가 다음의 세 가지 조건을 만족할 때, 를 -field (또는 -algebra) 라고 한다.
여기서 (1,2)번 조건으로 인해, 공집합 와 집합 가 모두 에 포함되어 있음을 알 수 있다. 또한 (2,3)번 조건으로 인해, 가 모든 교집합과 합집합에 대해 닫혀있음을 알 수 있다. 따라서 -field는 다음과 같은 기본적인 성질을 가지고 있다.
즉 는 -field 중 가장 작은 집합이고, 멱집합 는 -field 중 가장 큰 집합이 된다.
참고로, 를 Measurable space 또는 Borel space 라고 부른다.
아주 쉽게 말해, 확률은 어떤 사건의 발생가능성을 말한다. 하지만 확률을 수학적으로 정의하기 위해서는 좀더 많은 재료가 필요하다.
결과를 예측할 수 없는 실험을 같은 조건으로 무작위 반복할 때, 이를 확률실험(Random experiment) 또는 확률시행(Random trial)이라고 한다. 수학적으로 확률이란, 확률실험의 결과에 의미있는 숫자를 할당하는 행위를 말한다. 이를 명확히 이해하기 위해서는 표본공간
, 사건공간
, 확률측도
및 확률공간
의 개념을 알아야 한다.
확률실험에서 발생할 수 있는 모든 결과들의 집합을 표본공간(Sample space) 이라고 한다. 예를들어 동전 던지기의 결과는 H(Head)와 T(Tail)이 될 수 있고, 표본공간은 다음과 같이 기술된다.
표본공간 의 -field를 사건공간(Event space) 2이라고 하고, 사건공간의 원소를 사건(Event)이라고 한다. 정의가 다소 난해할 수도 있는데, 다음과 같이 이해해보자.
동전 던지기를 다시 예로 들어보자. 표본공간은 이므로, 사건공간 중 하나를 다음과 같이 표기할 수 있다.
즉 의 원소 하나하나가 사건에 해당한다는 사실을 알 수 있다. 여기서 “사건공간 중 하나” 라고 표현한 이유는, -field의 정의에 의해 사건공간은 여러가지가 될 수 있기 때문이다. 사실 바로 위에서 기술한 사건공간은, 가능한 사건공간 중 가장 큰 집합에 해당한다.
Measurable space 에 대해서, 어떤 함수 가 다음의 세 가지 조건을 만족할 때, 을 확률측도(Probability measure) 또는 확률함수(Probability function) 라고 부른다.
즉 확률측도란, 사건 하나에 양의 실수값을 대응시키면서 특정조건을 만족하는 함수를 의미한다. 특히 3번 조건을 -additivity (또는 Countable additivity) 라고 하고, 위의 세 가지 조건을 통틀어 콜모고로프 공리 (Kolmogorov axioms)라고 부른다.
예를들어 동전 던지기(즉 확률실험)의 사건공간이 인 경우, 위의 조건을 만족하는 확률측도를 다음과 같이 만들 수 있다.
확률측도는 과연 하나 뿐일까? 콜모고르프 공리를 만족하기만 하면 되기 때문에, 이론적으로 가능한 확률측도는 무수히 많다. 이를테면 아래와 같은 확률측도도 있을 수 있다.
이제까지 정의한 표본공간 , 사건공간 , 확률측도 에 대해서, 을 확률공간(Probability space) 이라고 한다. 확률을 논하기 위해서는 언제나 이 세 가지가 한 세트로 따라다닌다.
이제 드디어 확률을 정의할 수 있는 모든 재료가 준비되었다. 확률공간 과 특정 사건 에 대해서, 을 사건 의 확률(Probability)이라고 한다.
확률론에는 확률의 의미를 이해하는 두 가지의 접근방식이 있는데, 다음과 같다.
우리는 일상생활에서 알게 모르게 이 두 가지를 혼용하고 있다. 이를테면 공정한(fair) 주사위에서 한쪽 면이 나올 확률은 1/6 이라고 말하기도 하고, 내일 비가 올 확률은 80% 라고 얘기하기도 한다. 둘 다 확률이라는 용어를 사용하고 있기 때문에 얼핏보면 같아 보이지만, 그 의미는 사뭇 다르다. 전자를 빈도주의 관점에서의 확률이라고 하고, 후자를 베이지안 관점의 확률이라고 한다.
빈도주의 관점에서의 확률은, 확률실험을 무한히 반복했을 때의 상대적인 빈도로 이해한다. 주사위 예제를 다시 가져와보자. 주사위가 공정(fair)하다면, 어느 한쪽 면이 나올 확률은 1/6 이라는 사실을 어렵지않게 유추할 수 있다. 왜냐하면 이 주사위를 수없이 반복하여 던졌을 때 6번에 1번 꼴로 해당 면이 나올 것을 미리 알고 있기 때문이다. 신기하게도 주사위 던지기와 같은 반복적인 확률실험을 떠올리는 순간, 우리 모두는 빈도주의자(Frequentist)가 된다.
빈도주의 관점의 확률을 좀더 일반적으로 표현해보자. 어떤 확률실험을 번 반복했을 때 사건 가 발생하는 횟수, 즉 빈도(Frequency)를 라고 한다면, 상대적 빈도(Relative frequency) 를 다음과 같이 정의할 수 있다.
앞서 설명했듯이 확률측도는 이론적으로 무수히 많을 수 있다. 이 중 해당 확률실험을 묘사하는 정확한 확률측도를 찾아냈고, 그것이 이라고 가정한다면, 다음의 관계를 예측할 수 있을 것이다.
즉 확률실험을 반복하면 반복할 수록, 상대적 빈도 은 확률측도 에 수렴하게 되는데, 이를 대수의 법칙(Law of large numbers) 이라고 한다. 요컨대 수많은 확률측도가 존재할 수 있지만, 진정한 확률측도는 대수의 법칙을 따른다는 사실이다. 이는 빈도주의 관점에서 해당 확률측도의 적정성을 평가하는 기준이 된다.
모든 확률이 빈도주의 관점은 아니다. 예를들어 이번 대통령 선거에서 K가 당선될 확률이 60%
라고 하면, 이를 상대적 빈도로 설명하기에는 분명 한계가 있다. 우선, 대통령 선거를 무한히 반복하는 것 자체가 불가능하다. 차라리 여기서에서는, K가 당선될 것이라는 주관적인 믿음의 정도(degree of belief), 즉 명제의 신뢰도가 60% 라고 해석하는 것이 합리적이다. 이처럼 확률을 주관적 신뢰도로 이해하는 방식을, 베이지안 관점의 확률이라고 부른다.
빈도주의에서는 확률값을 확률실험에 대한 모수로 해석한다. 즉 확률값이 알려져 있지는 않지만, 고정되어 있는 상수로 보는 것이다. 반면 베이지안 관점에서는 확률값(즉 믿음)이 변동한다고 가정한다. 좀 더 정확하게 표현하자면 해당 확률값을, 분포(Probability distribution)를 갖고 변동하는 확률변수(Random variable)로 이해한다. 이 시점에서는 아직 확률변수와 확률분포를 정의하지 않았으므로, 명백한 의미전달은 어려울 것 같다. 어쨋든 중요한 것은, 베이지안에서의 확률값은 변동한다는 사실이고, 새로운 사실(데이터)을 바탕으로 기존의 확률값(사전확률, prior)을 새로운 확률값(사후확률, posterior)으로 업데이트해 나간다. 이와 같이 확률값을 업데이트하는 프로세스를 베이즈 정리(Bayes’ theorem) 라고 부른다. 베이즈 정리는 다른 포스트에서 상세히 다룰 예정이다.
콜모고르프 공리를 이용하면, 다음과 같은 확률의 기본적인 성질을 도출할 수 있다.
Difference rule에서 는 차집합3을 의미한다. 그리고 Complement rule과 Increasing rule을 이용하면, 다음을 추가적으로 유추할 수 있다.
Proof.
Complement rule
, 이므로, 공리의 세번째 조건인 -additivity에 의해
Difference rule
이고, 이므로, -additivity에 의해,
Increasing rule
이고, 이므로, -additivity에 의해
여기서 이므로, 증명이 완성된다.
Countable한 사건들의 수열 에 대해서, 다음의 부등식을 Boole 부등식이라고 한다. 여기서 부등식 우측식을 Union bound 라고 부른다.
Proof. 으로부터 Countable 수열 를 다음과 같이 새로 정의하자.
정의에 의해 는 pairwise disjoint 하고, 및 임을 알 수 있다. 따라서 Increasing rule 과 -additivity에 의해,
Countable한 사건들의 수열 에 대해서, 다음의 부등식을 Bonferroni 부등식이라고 한다.
Proof. 드모르간의 법칙 (De Morgan’s law)에 의해 이므로, Boole 부등식에 의해
Countable한 사건들의 수열 이 표본공간 의 Partition일 때, 임의의 사건 에 대해서 다음이 성립한다. 이를 Partition rule 이라고 한다.
Proof. Partition의 정의에 의해 이고, 사건은 표본공간의 부분집합이므로,
한편 는 Countable, pairwise disjoint 하므로, -additivity에 의해 증명이 완성된다.
임의의 두 사건 에 대하여, 다음의 등식을 Inclusion-Exclusion rule 이라고 한다.
Proof.
이고, , 임을 이용하면,
윗 식에서 아랫 식을 빼주면, 원하는 수식이 도출된다.
일부 문서에서는 로 표기하기도 한다. ↩
위키피디아나 구글링을 해보면, 대부분의 문서에서는 이를 그냥 사건의 집합(A collection of events)이라고 표현한다. 아주 일부의 문서에서만 사건공간(Event space)이라는 용어를 사용하는 데, 이 포스트에서는 개인적인 취향에 따라 사건공간이라고 표기하였다. ↩
집합 에 대하여, 에는 속하되 에는 속하지 않는 원소들의 집합을 차집합(Set difference) 이라고 한다. 차집합 은 다음과 같이 정의된다. ↩