계량투자 실험실 Quantlab

MLE

현실의 문제에서 확률분포를 완전히 파악하고 있는 경우는 드물다. 따라서 샘플링을 통해 해당 확률밀도함수의 모수를 추정한다. 이 포스트에서는 모수추정법 중 가장 널리 알려진 MLE에 대해 정리해본다.

개요

Likelihood와 Log-likelihood

확률분포는 확률밀도함수(pdf: probability density function) 또는 확률질량함수(pmf: probability mass function)를 통해 묘사된다. 어떤 확률변수 가 모수 의 확률밀도함수 를 따른다고 하자. 이 확률분포에 대한 모든 정보, 즉 모수 를 이미 알고 있다고 가정하면, 이 경우 확률밀도함수 의 함수가 된다.

하지만 확률분포의 모수 를 안다는 건 현실적으로 불가능하다. 대부분의 문제에서는, 확률변수 로부터 도출된 샘플 이 주어지고, 이를 통해 모수 를 추정해야 되는 상황에 직면한다. 확률밀도함수 를 (의 함수가 아닌) 의 함수로 해석하는 것을 Likelihood1 라고 부른다.

결국 확률밀도함수와 Likelihood는 같은 형태라고 할 수 있다. 샘플 의 함수로 볼 것인가, 아니면 모수 의 함수로 볼 것인가의 차이일 뿐이다.

그런데 샘플 하나만 가지고 확률분포를 추정하는 일은 현실적으로 없을 것이다. 대부분의 상황에서는 확률변수 로부터 추출된 여러 개의 샘플들, 이를테면 개의 샘플 을 통해 모수를 추정한다. 만약 개의 샘플링이 독립시행 되었다고 가정한다면, Likelihood 은 다음과 같이 전개된다.

이처럼 샘플이 많은 경우의 Likelihood는 모두 곱셈으로 연결되어 있어, 이후의 대수적인 수식전개가 쉽지 않을 것이다. Likelihood에 로그를 씌워서 수식구조를 덧셈으로 변환한 것을 Log-likelihood 라고 한다.

MLE 프로세스

어떤 확률변수에서의 샘플값들을 토대로 그 확률변수의 모수를 구하는 것을 모수추정이라고 한다. MLE (Maximum Likelihood Estimation2)는 가장 많이 사용되는 모수추정 방법론 중 하나이며, 주어진 샘플들이 추출될 Likelihood를 최대로 만드는 모수를 선택한다. 즉 샘플들 에 대해,

가 된다. 여기서 의 추정치라는 의미의 부호이다. 이 값은 다음의 방정식을 풀면 구해진다.

만약 모든 샘플들이 독립적으로 선택(즉 독립시행)되었다면, 위의 방정식은 좀 더 다루기 쉬운 형태로 바꿀 수 있다. 함수는 단조증가 함수이기 때문에, Likelihood를 최대로 만드는 모수와 Log-likelihood를 최대로 만드는 모수는 결국 같다는 사실을 이용한다.

이 경우 모수의 추정치 는 다음 방정식으로 도출된다.


베르누이 분포의 모수추정

베르누이 분포로부터 독립적으로 추출된 개의 샘플 가 있고, 총 성공횟수를 라고 가정해보자. 이 베르누이 분포의 모수(즉 성공확률) 를 수식적으로 추정하기에 앞서, 우선 직관적으로 생각해보면 다음과 같을 것이다.

일단 이 값을 마음 속에 두고, 이번에는 MLE를 통해 모수를 추정해보자. 모수 의 베르누이 확률밀도함수,

에 대해서, Log-likelihood는 다음과 같이 전개된다.

즉 직관적인 추정값과 정확하게 일치한다. 이는 다른 분포에서도 마찬가지로 적용된다.


카테고리 분포의 모수추정

-클래스 카테고리 분포에서 독립적으로 추출된 개의 샘플 로부터 분포의 모수 를 추정해보자. 각각의 샘플 에 대해서 카테고리 분포의 확률밀도함수는 다음과 같다.

그리고 다음의 두 가지 사실을 기억해두자.

이제 Log-likelihood를 전개하면,

여기서 이라는 제약조건이 있으므로, 단순히 에 대해 미분하는 것만으로 해를 구할 수는 없다. 이 경우에는 라그랑제 승수법 (Lagrange multiplier)을 이용하여 최적해 를 구한다. 에 대해서 라그랑제 함수 을 다음과 같이 정의하면,


정규분포의 모수추정

가우시안 정규분포에서 독립적으로 추출된 개의 샘플 로부터 분포의 모수 을 추정해보자. 가우시안 정규분포의 확률밀도함수는

이므로,


다변수 정규분포의 모수추정

다변수 가우시안 정규분포에서 독립적으로 추출된 개의 샘플 , 로부터 분포의 모수 을 추정해보자. 각각의 샘플 에 대해 다변수 가우시안 정규분포의 확률밀도함수는

이므로,

여기서 (Precision 행렬이라고 한다)로 치환하였다. 이제 몇몇 유용한 공식들을 소환하자. 여기 참고.

이 공식들을 이용하면,

  1. 우도(尤度) 함수 또는 가능도(可能度) 함수라고도 한다. 

  2. 최대우도 추정법 또는 최대가능도 추정법이라고도 한다. 

comments powered by Disqus