Affinity와 Convexity는 머신러닝에서 최적화 (Optimization)의 논리적인 근거를 제공하는 핵심개념이다. Convexity에서 파생되는 Jensen 부등식도 같이 알아본다.
유한 개의 벡터들로 선형결합 (Linear combination)을 할 때, 모든 계수(coefficient)들의 합이 1인 경우를 Affine combination이라고 한다. 개의 벡터 에 대해서, Affine combination은 다음과 같이 표현된다.
여기서 실수 는 을 만족한다. 유클리드 공간(Euclidean space)에서 임의의 두 점을 선택했을 때, 두 점을 지나는 직선 상의 모든 점들은 Affine combination으로 표현할 수 있다.
Affine combination에 대해서 닫혀있는(closed) 집합을 Affine set 이라고 한다. 만약 집합 가 Affine set 이라면, 이 집합에서 개의 원소 를 임의로 추출했을 때, 해당 원소들의 Affine combination도 에 속하게 된다. 즉 에 대해서,
Affine map1이란 Linear map2과 Translation3이 결합된 형태의 좌표변환을 말한다.
구체적으로 기술하자면, Affine set 의 원소 와 벡터 및 행렬 에 대해서 다음과 같은 형태의 함수 를 의미한다.
위의 Affine map은 좀더 간편한 형태로 변환할 수 있다.
여기서 행렬 을 Augmented matrix 라고 한다. 다음은 여러가지 형태의 Augmented matrix 에 따른 Affine map을 보여준다.
Affine combination에서 모든 계수들이 0 이상이라는 추가적인 제약조건이 있는 경우를 Convex combination 이라고 한다. 개의 벡터 에 대해서, Convex combination은 다음과 같이 표현된다.
여기서 실수 는 과 을 만족한다. 유클리드 공간에서 임의의 두 점을 선택했을 때, 두 점을 잇는 직선 사이의 모든 점들은 Convex combination으로 표현할 수 있다.
Convex combination에 대해서 닫혀있는 집합을 Convex set 이라고 한다. 만약 집합 가 Convex set 이라면, 이 집합에서 개의 원소 를 임의로 추출했을 때, 해당 원소들의 Convex combination도 에 속하게 된다. 즉 및 에 대하여,
정의에 의해, 모든 Affine set은 Convex set 이라고 할 수 있다.
Convex set 에서 추출된 원소들 와 실수 에 대하여, 함수 가 다음의 부등식을 만족할 때, 이 함수를 Convex function이라고 부른다.
쉽게 말해서 Convex function은 아래로 볼록 함수를 일컫는다. 다음 차트를 보면, 인 경우에 대해 직관적으로 이해할 수 있을 것이다.
만약 가 Convex function이라면, 이 경우의 함수 를 Concave function (위로 볼록 함수)이라고 부른다.
모든 와 에 대하여 다음의 부등식이 성립하는 경우, 이 함수 를 Strictly convex function 이라고 한다.
참고로 Affine function은 Strictly convex function에 포함되지 않는다. 만약 가 affine function 이라면, 에 대해서 윗식의 등호가 성립하며, 이는 Strictly convex function의 정의에 어긋나게 된다. 따라서 Strictly convex function은, Convex function 중 선형(Linear)인 구간이 전혀 없는 함수로 이해할 수 있다. 만약 가 Strictly convex function이라면, 이 경우의 함수 를 Strictly concave function 이라고 부른다.
비교: Combinations and Sets
유한 개의 벡터 와 에 대하여 Affine combination과 Convex combination은 다음과 같이 선형결합(Linear combination)으로 나타낼 수 있다.
단 제약조건이 다르다.
Affine combination Convex combination Affine set과 Convex set은 각각 Affine combination과 Convex combination에 닫혀있는 공간을 의미한다. 임의의 원소 가 포함되어 있는 최소한의 Affine set과 Convex set을 구성해보면 다음 그림과 같다. 4
참고로 Linear subspace란, 제약조건이 없는 모든 선형결합에 대해서 닫혀있는 공간을 뜻한다.
어떤 함수가 아래로 볼록(convex)이면서 동시에 위로 볼록(concave)이라면, 직관적으로 이 함수는 선형함수일 것으로 예상된다. 보다 명확하게 서술하면 다음과 같다.
Affine set 에서 정의된 함수 에 대하여,
Proof.
함수 가 Affine map 이라고 하자. 정의에 의해, 벡터 과 상수 에 대하여 로 나타낼 수 있다. Affine set 는 Convex set이므로, 및 에 대하여,
즉 다음 두 개의 부등식,
을 동시에 만족하게 되고, 따라서 함수 는 Affine set 에서 Convex 및 Concave 하게 된다.
함수 가 Convex & Concave 하다고 가정하자. 를 Affine map 의 형태로 유도하면 증명이 완성된다. 그런데 한 가지 문제가 있다. 아래의 증명을 전개하는 과정에서 Affine set 가 반드시 원점을 포함해야 한다는 논리가 필요한데, 그렇다는 보장이 없다. 좌표변환을 통해, 원점을 포함하는 Affine set 를 새롭게 정의해보자.
임의의 에 대하여, Affine set 전체를 만큼 좌표변환한 집합 을 다음과 같이 정의하면,
는 원점을 포함하게 된다. 과연 는 Affine set 일까? 임의의 및 에 대하여,
라고 하면,
따라서 는 원점을 지나는 Affine set 이라고 할 수 있다. 이제 에서 정의된 함수 를 다음과 같이 새로 정의한다.
여기서 임을 알 수 있다. 함수 은 다음의 세 가지 특성을 가지고 있는데, 이들을 추가적으로 증명해보자.
1. Convex & Concave
가정에 의해 함수 가 Convex & Concave 하므로, 및 에 대하여,
따라서 역시 Convex & Concave 하다.
2. Multiplication
따라서 모든 에 대하여 임을 알 수 있다.
3. Additivity
바로 위에서 증명한 Multiplication과, 가 Convex & Concave하다는 사실을 이용한다.
위의 3 가지를 모두 증명하였다. 이제 마지막으로, 함수 를 Affine map의 형태로 유도해보자. 임의의 원소 는 표준 베이시스5 의 선형결합으로 기술할 수 있고,
위에서 증명한 Multiplication과 Additivity을 이용하면,
따라서 임의의 에 대하여,
여기서 벡터 와 상수 을 다음과 같이 정의하면,
함수 는 결국 Affine map의 형태가 된다.
Convex set 에서 정의된 Convex function 6 가 있다. 임의의 및 에 대하여, 라고 할 때, 다음의 부등식이 성립한다. 이를 Jensen 부등식이라고 한다.
Proof.
귀납법 (Induction)으로 쉽게 증명할 수 있다. 인 경우의 Jensen 부등식은 Convex function의 정의에 의해 자명하다. 에 대해서도 다음의 부등식이 성립한다고 가정하자.
이제 에 대해서 식을 전개하면,
여기서 로 치환하면,
이고, 에 대해서 Jensen 부등식이 성립한다고 했으므로,
따라서 다음과 같이 증명이 완성된다.
Jensen 부등식에서 등호가 성립한다면, 다음의 둘 중 하나가 참이다.
Proof.
Jensen 부등식의 등호가 성립한다고 가정하자.
Jensen 부등식에서 함수 가 Strictly convex function 이라면,
Proof.
(1) 자명하다
(2) Jensen 부등식에서 등호가 성립한다면, 거나 가 Affine map 이어야 한다. 그런데 가정에서 는 Strictly convex 하므로, 따라서 인 경우밖에 없다.
Convex function 과 확률변수 에 대하여 다음의 부등식이 성립한다.
만약 가 Strictly convex function 이라면,
이산확률변수의 Jensen 부등식은 자명하다. 연속확률변수인 경우의 증명은 생략한다. 대신, 확률변수의 Jensen 부등식을 직관적으로 이해해보자. 아래 차트는 Convex function 로 인해, 확률변수 의 분포가 로 어떻게 mapping 되는 지를 보여준다.
원래의 의 분포(예시)는 왼쪽으로 꼬리가 길게 늘어져있고, 이에따라 의 기대값 은 다소 왼쪽에 위치하게 된다. 하지만 Convex function의 독특한 형태로 인해 분포의 오른쪽 부분이 확장(Stretching-out) 변환되면서, 확률변수 의 분포 상단이 점차 늘어지는 모양이 되었다. 결과적으로 의 기대값 을 위로 밀어올리게 되면서, 의 관계를 도출하게 되는데, 이것이 바로 확률변수의 Jensen 부등식인 것이다.
선형변환, Linear transformation, Linear function 이라고도 한다. 여기를 참고. ↩
이처럼 어떤 집합(그림에서는 )을 포함하고 있는 최소한의 Affine set과 Convex set을 각각 Affine hull, Convex hull 이라고 부른다. ↩
번째 항목만 1 이고 나머지는 0인 벡터를 말한다. 기저 (Standard basis)라고도 한다. ↩
가 Concave function 인 경우에는 부등호의 방향이 반대가 된다. ↩