계량투자 실험실 Quantlab

Affinity와 Convexity

Affinity와 Convexity는 머신러닝에서 최적화 (Optimization)의 논리적인 근거를 제공하는 핵심개념이다. Convexity에서 파생되는 Jensen 부등식도 같이 알아본다.

Affine set과 Convex set
convex_fn

Affinity

Affine combination

유한 개의 벡터들로 선형결합 (Linear combination)을 할 때, 모든 계수(coefficient)들의 합이 1인 경우를 Affine combination이라고 한다. 개의 벡터 에 대해서, Affine combination은 다음과 같이 표현된다.

여기서 실수 을 만족한다. 유클리드 공간(Euclidean space)에서 임의의 두 점을 선택했을 때, 두 점을 지나는 직선 상의 모든 점들은 Affine combination으로 표현할 수 있다.


Affine set

Affine combination에 대해서 닫혀있는(closed) 집합을 Affine set 이라고 한다. 만약 집합 가 Affine set 이라면, 이 집합에서 개의 원소 를 임의로 추출했을 때, 해당 원소들의 Affine combination도 에 속하게 된다. 즉 에 대해서,


Affine map

Affine map1이란 Linear map2Translation3이 결합된 형태의 좌표변환을 말한다.

Affine map = Linear map + Translation

구체적으로 기술하자면, Affine set 의 원소 와 벡터 및 행렬 에 대해서 다음과 같은 형태의 함수 를 의미한다.

위의 Affine map은 좀더 간편한 형태로 변환할 수 있다.

여기서 행렬 Augmented matrix 라고 한다. 다음은 여러가지 형태의 Augmented matrix 에 따른 Affine map을 보여준다.


convex_fn
(출처: 위키피디아)


Convexity

Convex combination

Affine combination에서 모든 계수들이 0 이상이라는 추가적인 제약조건이 있는 경우를 Convex combination 이라고 한다. 개의 벡터 에 대해서, Convex combination은 다음과 같이 표현된다.

여기서 실수 을 만족한다. 유클리드 공간에서 임의의 두 점을 선택했을 때, 두 점을 잇는 직선 사이의 모든 점들은 Convex combination으로 표현할 수 있다.


Convex set

Convex combination에 대해서 닫혀있는 집합을 Convex set 이라고 한다. 만약 집합 가 Convex set 이라면, 이 집합에서 개의 원소 를 임의로 추출했을 때, 해당 원소들의 Convex combination도 에 속하게 된다. 즉 에 대하여,

정의에 의해, 모든 Affine set은 Convex set 이라고 할 수 있다.


convex_set
(출처: 위키피디아)


Convex function

Convex set 에서 추출된 원소들 와 실수 에 대하여, 함수 가 다음의 부등식을 만족할 때, 이 함수를 Convex function이라고 부른다.

쉽게 말해서 Convex function은 아래로 볼록 함수를 일컫는다. 다음 차트를 보면, 인 경우에 대해 직관적으로 이해할 수 있을 것이다.

Convex function의 형태
convex_fn
(출처: https://am207.github.io)


만약 가 Convex function이라면, 이 경우의 함수 Concave function (위로 볼록 함수)이라고 부른다.


Strictly convex function

모든 에 대하여 다음의 부등식이 성립하는 경우, 이 함수 Strictly convex function 이라고 한다.

참고로 Affine function은 Strictly convex function에 포함되지 않는다. 만약 가 affine function 이라면, 에 대해서 윗식의 등호가 성립하며, 이는 Strictly convex function의 정의에 어긋나게 된다. 따라서 Strictly convex function은, Convex function 중 선형(Linear)인 구간이 전혀 없는 함수로 이해할 수 있다. 만약 가 Strictly convex function이라면, 이 경우의 함수 Strictly concave function 이라고 부른다.


비교: Combinations and Sets

유한 개의 벡터 에 대하여 Affine combination과 Convex combination은 다음과 같이 선형결합(Linear combination)으로 나타낼 수 있다.

단 제약조건이 다르다.

Affine combination
Convex combination

Affine set과 Convex set은 각각 Affine combination과 Convex combination에 닫혀있는 공간을 의미한다. 임의의 원소 가 포함되어 있는 최소한의 Affine set과 Convex set을 구성해보면 다음 그림과 같다. 4


convex_fn

참고로 Linear subspace란, 제약조건이 없는 모든 선형결합에 대해서 닫혀있는 공간을 뜻한다.


Convex + Concave = Affine map

어떤 함수가 아래로 볼록(convex)이면서 동시에 위로 볼록(concave)이라면, 직관적으로 이 함수는 선형함수일 것으로 예상된다. 보다 명확하게 서술하면 다음과 같다.

Affine set 에서 정의된 함수 에 대하여,


Proof.

함수 가 Affine map 이라고 하자. 정의에 의해, 벡터 과 상수 에 대하여 로 나타낼 수 있다. Affine set 는 Convex set이므로, 에 대하여,

즉 다음 두 개의 부등식,

을 동시에 만족하게 되고, 따라서 함수 는 Affine set 에서 Convex 및 Concave 하게 된다.


함수 가 Convex & Concave 하다고 가정하자. 를 Affine map 의 형태로 유도하면 증명이 완성된다. 그런데 한 가지 문제가 있다. 아래의 증명을 전개하는 과정에서 Affine set 가 반드시 원점을 포함해야 한다는 논리가 필요한데, 그렇다는 보장이 없다. 좌표변환을 통해, 원점을 포함하는 Affine set 를 새롭게 정의해보자.

임의의 에 대하여, Affine set 전체를 만큼 좌표변환한 집합 을 다음과 같이 정의하면,

는 원점을 포함하게 된다. 과연 는 Affine set 일까? 임의의 에 대하여,

라고 하면,

따라서 원점을 지나는 Affine set 이라고 할 수 있다. 이제 에서 정의된 함수 를 다음과 같이 새로 정의한다.

여기서 임을 알 수 있다. 함수 은 다음의 세 가지 특성을 가지고 있는데, 이들을 추가적으로 증명해보자.

  1. [Convex & Concave] 와 마찬가지로, 는 Convex & Concave 하다
  2. [Multiplication] 모든 와 실수 에 대하여,
  3. [Additivity] 에 대하여,


1. Convex & Concave

가정에 의해 함수 가 Convex & Concave 하므로, 에 대하여,

따라서 역시 Convex & Concave 하다.


2. Multiplication

따라서 모든 에 대하여 임을 알 수 있다.


3. Additivity

바로 위에서 증명한 Multiplication과, 가 Convex & Concave하다는 사실을 이용한다.


위의 3 가지를 모두 증명하였다. 이제 마지막으로, 함수 를 Affine map의 형태로 유도해보자. 임의의 원소 는 표준 베이시스5 의 선형결합으로 기술할 수 있고,

위에서 증명한 Multiplication과 Additivity을 이용하면,

따라서 임의의 에 대하여,

여기서 벡터 와 상수 을 다음과 같이 정의하면,

함수 는 결국 Affine map의 형태가 된다.


Jesen 부등식

Jensen 부등식

Convex set 에서 정의된 Convex function 6 가 있다. 임의의 에 대하여, 라고 할 때, 다음의 부등식이 성립한다. 이를 Jensen 부등식이라고 한다.


Proof.

귀납법 (Induction)으로 쉽게 증명할 수 있다. 인 경우의 Jensen 부등식은 Convex function의 정의에 의해 자명하다. 에 대해서도 다음의 부등식이 성립한다고 가정하자.

이제 에 대해서 식을 전개하면,

여기서 로 치환하면,

이고, 에 대해서 Jensen 부등식이 성립한다고 했으므로,

따라서 다음과 같이 증명이 완성된다.


Jensen 부등식에서의 등호조건

Jensen 부등식에서 등호가 성립한다면, 다음의 둘 중 하나가 참이다.


Proof.

Jensen 부등식의 등호가 성립한다고 가정하자.


Strictly convex function의 Jensen 부등식

Jensen 부등식에서 함수 가 Strictly convex function 이라면,


Proof.

(1) 자명하다

(2) Jensen 부등식에서 등호가 성립한다면, 거나 가 Affine map 이어야 한다. 그런데 가정에서 는 Strictly convex 하므로, 따라서 인 경우밖에 없다.


확률변수의 Jensen 부등식

Convex function 과 확률변수 에 대하여 다음의 부등식이 성립한다.

만약 가 Strictly convex function 이라면,


이산확률변수의 Jensen 부등식은 자명하다. 연속확률변수인 경우의 증명은 생략한다. 대신, 확률변수의 Jensen 부등식을 직관적으로 이해해보자. 아래 차트는 Convex function 로 인해, 확률변수 의 분포가 로 어떻게 mapping 되는 지를 보여준다.

jensen_graph
(출처: 위키피디아)

원래의 의 분포(예시)는 왼쪽으로 꼬리가 길게 늘어져있고, 이에따라 의 기대값 은 다소 왼쪽에 위치하게 된다. 하지만 Convex function의 독특한 형태로 인해 분포의 오른쪽 부분이 확장(Stretching-out) 변환되면서, 확률변수 의 분포 상단이 점차 늘어지는 모양이 되었다. 결과적으로 의 기대값 을 위로 밀어올리게 되면서, 의 관계를 도출하게 되는데, 이것이 바로 확률변수의 Jensen 부등식인 것이다.

  1. Affine transformation, Affine function 이라고도 한다. 여기를 참고. 

  2. 선형변환, Linear transformation, Linear function 이라고도 한다. 여기를 참고. 

  3. 평행이동 변환을 의미한다. 여기를 참고. 

  4. 이처럼 어떤 집합(그림에서는 )을 포함하고 있는 최소한의 Affine set과 Convex set을 각각 Affine hull, Convex hull 이라고 부른다. 

  5. 번째 항목만 1 이고 나머지는 0인 벡터를 말한다. 기저 (Standard basis)라고도 한다. 

  6. 가 Concave function 인 경우에는 부등호의 방향이 반대가 된다.  

comments powered by Disqus