계량투자 실험실 Quantlab

카테고리 분포와 다항분포

카테고리 분포는 베르누이 분포를 확장한 개념이다. 즉 여러 개의 카테고리 중 하나를 선택하는 실험의 결과는 카테고리 분포를 따르게 된다. 카테고리 분포를 누적하면 다항분포를 얻게 된다.

카테고리 분포

개념

카테고리 시행
카테고리 시행(Categorical trial)1개의 카테고리 중 하나를 선택하는 실험을 의미한다. 예를들어 주사위를 던지는 행위는 인 카테고리 시행으로 볼 수 있다. 참고로 베르누이 시행은 인 카테고리 시행으로 해석된다.

주사위를 던지는 카테고리 시행의 결과를 확률변수 로 나타내면 아래와 같다.

이처럼 카테고리 확률변수는 기본적으로 단변수(즉, 1차원)지만, 이를 개의 베르누이 확률분포로 이루어져있는 차원 다변수 확률변수 로 이해하면 편리하다. 단 이 경우 중 하나만 1이 되고 나머지는 0이 된다는 제약조건이 붙는다.

각 카테고리가 선택될 확률, 즉 성공확률을 라고 하자. 이때 확률변수 는 모수가 이고 카테고리가 개인 카테고리 분포(Categorical distribution)를 따른다고 한다. 이를 -클래스 카테고리 분포라고도 하는데, GMM이나 HMM 등 관측불가한 잠재변수가 숨어있는 확률모형에서, 잠재변수의 확률분포를 모델링할 때 많이 사용된다. 베르누이 분포는 인 카테고리 분포라고 할 수 있다. 카테고리 분포는 다음과 같이 묘사된다.

여기서 의 각 요소는 아래의 제약조건을 가진다.

카테고리 분포에서 추출한 샘플 에 대하여, 확률밀도함수 는 다음과 같이 유도된다.


주요성질


다항분포

개념

성공확률이 인 베르누이 시행을 번 반복했을 때의 성공횟수가 이항분포를 따르는 것처럼, 성공확률이 인 카테고리 시행을 번 반복했을 때의 각 카테고리별 성공횟수는 다항분포(Multinomial distribution)을 따르게 된다.

예를들어, 인 경우의 각 카테고리별 성공횟수는 아래와 같이 계산되며, 이는 다항분포를 따른다.

확률변수 가 모수 의 다항분포를 따른다고 할 때, 이는 개의 카테고리 확률변수 의 합으로 나타낼 수 있다.

다항분포의 확률밀도함수 를 카테고리 확률분포로부터 유도해보자. 카테고리 시행을 통해 임의로 얻은 개의 샘플을 라고 하면, 각각의 샘플은 다음과 같이 나타낼 수 있다.

카테고리별 성공횟수를 나타내는 값 은 이들 샘플들의 합으로 나타내어진다.

한편 개의 샘플에서 가 나올 경우의 수를 라고 하면, 이는 각 카테고리 에서 개의 샘플을 고르는 것과 같으므로

이다. 따라서,


주요성질

  1. 카테고리 시행이라는 용어가 공식적으로 존재하는 지는 확실치 않다. 구글이나 위키피디아 등에서 해당 단어를 찾을 수 없었다. 다만 베르누이 시행에서 베르누이 분포로 연결되는 논리구조를 이 포스트에서 재활용하기 위해, 카테고리 시행이라는 단어을 명시적으로 사용했다. 

comments powered by Disqus