Affinity와 Convexity는 머신러닝에서 최적화 (Optimization)의 논리적인 근거를 제공하는 핵심개념이다. Convexity에서 파생되는 Jensen 부등식도 같이 알아본다.
유한 개의 벡터들로 선형결합 (Linear combination)을 할 때, 모든 계수(coefficient)들의 합이 1인 경우를 Affine combination이라고 한다. rr개의 벡터 x1,⋯,xrx1,⋯,xr 에 대해서, Affine combination은 다음과 같이 표현된다.
여기서 실수 λiλi 는 λ1+⋯+λr=1λ1+⋯+λr=1 을 만족한다. 유클리드 공간(Euclidean space)에서 임의의 두 점을 선택했을 때, 두 점을 지나는 직선 상의 모든 점들은 Affine combination으로 표현할 수 있다.
Affine combination에 대해서 닫혀있는(closed) 집합을 Affine set 이라고 한다. 만약 집합 AA가 Affine set 이라면, 이 집합에서 rr개의 원소 x1,⋯,xr∈Ax1,⋯,xr∈A 를 임의로 추출했을 때, 해당 원소들의 Affine combination도 AA에 속하게 된다. 즉 λ1+⋯+λr=1λ1+⋯+λr=1 에 대해서,
Affine map1이란 Linear map2과 Translation3이 결합된 형태의 좌표변환을 말한다.
구체적으로 기술하자면, Affine set A⊂RnA⊂Rn 의 원소 x∈Ax∈A 와 벡터 b∈Rmb∈Rm 및 행렬 A∈Rn×mA∈Rn×m 에 대해서 다음과 같은 형태의 함수 h(⋅):A↦Rmh(⋅):A↦Rm 를 의미한다.
위의 Affine map은 좀더 간편한 형태로 변환할 수 있다.
여기서 행렬 M∈R(m+1)×(n+1) 을 Augmented matrix 라고 한다. 다음은 여러가지 형태의 Augmented matrix M에 따른 Affine map을 보여준다.
Affine combination에서 모든 계수들이 0 이상이라는 추가적인 제약조건이 있는 경우를 Convex combination 이라고 한다. r개의 벡터 x1,⋯,xr에 대해서, Convex combination은 다음과 같이 표현된다.
여기서 실수 λi 는 λi≥0 과 λ1+⋯+λr=1 을 만족한다. 유클리드 공간에서 임의의 두 점을 선택했을 때, 두 점을 잇는 직선 사이의 모든 점들은 Convex combination으로 표현할 수 있다.
Convex combination에 대해서 닫혀있는 집합을 Convex set 이라고 한다. 만약 집합 S가 Convex set 이라면, 이 집합에서 r개의 원소 x1,⋯,xr∈S 를 임의로 추출했을 때, 해당 원소들의 Convex combination도 S에 속하게 된다. 즉 λi≥0 및 λ1+⋯+λr=1 에 대하여,
정의에 의해, 모든 Affine set은 Convex set 이라고 할 수 있다.
Convex set S에서 추출된 원소들 x1,x2∈S 와 실수 λ∈[0,1]에 대하여, 함수 f(⋅):S↦R가 다음의 부등식을 만족할 때, 이 함수를 Convex function이라고 부른다.
쉽게 말해서 Convex function은 아래로 볼록 함수를 일컫는다. 다음 차트를 보면, S=[a,b]⊂R 인 경우에 대해 직관적으로 이해할 수 있을 것이다.
만약 −f가 Convex function이라면, 이 경우의 함수 f를 Concave function (위로 볼록 함수)이라고 부른다.
모든 x1≠x2∈S 와 λ∈(0,1)에 대하여 다음의 부등식이 성립하는 경우, 이 함수 f(⋅):S↦R 를 Strictly convex function 이라고 한다.
참고로 Affine function은 Strictly convex function에 포함되지 않는다. 만약 f가 affine function 이라면, x1≠x2 에 대해서 윗식의 등호가 성립하며, 이는 Strictly convex function의 정의에 어긋나게 된다. 따라서 Strictly convex function은, Convex function 중 선형(Linear)인 구간이 전혀 없는 함수로 이해할 수 있다. 만약 −f가 Strictly convex function이라면, 이 경우의 함수 f를 Strictly concave function 이라고 부른다.
비교: Combinations and Sets
유한 개의 벡터 x1,⋯,xr와 λi∈R 에 대하여 Affine combination과 Convex combination은 다음과 같이 선형결합(Linear combination)으로 나타낼 수 있다.
λ1x1+⋯+λrxr단 제약조건이 다르다.
Affine combination Convex combination r∑i=1λi=1 r∑i=1λi=1, λi∈[0,1] Affine set과 Convex set은 각각 Affine combination과 Convex combination에 닫혀있는 공간을 의미한다. 임의의 원소 x1,x2가 포함되어 있는 최소한의 Affine set과 Convex set을 구성해보면 다음 그림과 같다. 4
참고로 Linear subspace란, 제약조건이 없는 모든 선형결합에 대해서 닫혀있는 공간을 뜻한다.
어떤 함수가 아래로 볼록(convex)이면서 동시에 위로 볼록(concave)이라면, 직관적으로 이 함수는 선형함수일 것으로 예상된다. 보다 명확하게 서술하면 다음과 같다.
Affine set A⊂Rn에서 정의된 함수 f(⋅):A↦R 에 대하여,
Proof.
(1)⇒
함수 f가 Affine map 이라고 하자. 정의에 의해, 벡터 a∈Rn과 상수 b∈R 에 대하여 f(x)=aTx+b 로 나타낼 수 있다. Affine set A는 Convex set이므로, x1,x2∈A 및 λ∈[0,1] 에 대하여,
즉 다음 두 개의 부등식,
을 동시에 만족하게 되고, 따라서 함수 f는 Affine set A에서 Convex 및 Concave 하게 된다.
(2)⇐
함수 f가 Convex & Concave 하다고 가정하자. f를 Affine map 의 형태로 유도하면 증명이 완성된다. 그런데 한 가지 문제가 있다. 아래의 증명을 전개하는 과정에서 Affine set A가 반드시 원점을 포함해야 한다는 논리가 필요한데, 그렇다는 보장이 없다. 좌표변환을 통해, 원점을 포함하는 Affine set Ao 를 새롭게 정의해보자.
임의의 α∈A에 대하여, Affine set A 전체를 −α 만큼 좌표변환한 집합 Ao을 다음과 같이 정의하면,
Ao는 원점을 포함하게 된다. 과연 Ao는 Affine set 일까? 임의의 zi∈Ao 및 θ1+⋯+θr=1 에 대하여,
라고 하면,
따라서 Ao는 원점을 지나는 Affine set 이라고 할 수 있다. 이제 Ao 에서 정의된 함수 g(⋅):Ao↦R 를 다음과 같이 새로 정의한다.
여기서 g(0) =0 임을 알 수 있다. 함수 g 은 다음의 세 가지 특성을 가지고 있는데, 이들을 추가적으로 증명해보자.
1. Convex & Concave
가정에 의해 함수 f가 Convex & Concave 하므로, z1,z2∈Ao 및 k∈R 에 대하여,
따라서 g 역시 Convex & Concave 하다.
2. Multiplication
따라서 모든 γ≥0 에 대하여 g(γz)=γg(z) 임을 알 수 있다.
3. Additivity
바로 위에서 증명한 Multiplication과, g가 Convex & Concave하다는 사실을 이용한다.
위의 3 가지를 모두 증명하였다. 이제 마지막으로, 함수 g를 Affine map의 형태로 유도해보자. 임의의 원소 z∈Ao⊂Rn 는 표준 베이시스5 ei∈Rn의 선형결합으로 기술할 수 있고,
위에서 증명한 Multiplication과 Additivity을 이용하면,
따라서 임의의 x=z+α∈A 에 대하여,
여기서 벡터 a=[ai]∈Rn 와 상수 b∈R 을 다음과 같이 정의하면,
함수 f 는 결국 Affine map의 형태가 된다.
Convex set S 에서 정의된 Convex function 6 f(⋅):S↦R 가 있다. 임의의 xi∈S 및 λi∈(0,1) 에 대하여, λ1+⋯+λr=1 라고 할 때, 다음의 부등식이 성립한다. 이를 Jensen 부등식이라고 한다.
Proof.
귀납법 (Induction)으로 쉽게 증명할 수 있다. n=2 인 경우의 Jensen 부등식은 Convex function의 정의에 의해 자명하다. n=k 에 대해서도 다음의 부등식이 성립한다고 가정하자.
이제 n=k+1 에 대해서 식을 전개하면,
여기서 λi1−λk+1let=ηi 로 치환하면,
이고, n=k 에 대해서 Jensen 부등식이 성립한다고 했으므로,
따라서 다음과 같이 증명이 완성된다.
Jensen 부등식에서 등호가 성립한다면, 다음의 둘 중 하나가 참이다.
Proof.
Jensen 부등식의 등호가 성립한다고 가정하자.
Jensen 부등식에서 함수 f가 Strictly convex function 이라면,
Proof.
(1) ⇒ 자명하다
(2) ⇐ Jensen 부등식에서 등호가 성립한다면, x1=⋯=xr 거나 f가 Affine map 이어야 한다. 그런데 가정에서 f는 Strictly convex 하므로, 따라서 x1=⋯=xr 인 경우밖에 없다.
Convex function f(⋅):S↦R 과 확률변수 X에 대하여 다음의 부등식이 성립한다.
만약 f가 Strictly convex function 이라면,
이산확률변수의 Jensen 부등식은 자명하다. 연속확률변수인 경우의 증명은 생략한다. 대신, 확률변수의 Jensen 부등식을 직관적으로 이해해보자. 아래 차트는 Convex function φ 로 인해, 확률변수 X의 분포가 φ(X) 로 어떻게 mapping 되는 지를 보여준다.
원래의 X의 분포(예시)는 왼쪽으로 꼬리가 길게 늘어져있고, 이에따라 X의 기대값 E[X]은 다소 왼쪽에 위치하게 된다. 하지만 Convex function의 독특한 형태로 인해 X 분포의 오른쪽 부분이 확장(Stretching-out) 변환되면서, 확률변수 Y=φ(X)의 분포 상단이 점차 늘어지는 모양이 되었다. 결과적으로 Y의 기대값 E[Y]을 위로 밀어올리게 되면서, φ(E[X])≤E[Y]=E[φ(X)] 의 관계를 도출하게 되는데, 이것이 바로 확률변수의 Jensen 부등식인 것이다.
선형변환, Linear transformation, Linear function 이라고도 한다. 여기를 참고. ↩
이처럼 어떤 집합(그림에서는 {x1,x2})을 포함하고 있는 최소한의 Affine set과 Convex set을 각각 Affine hull, Convex hull 이라고 부른다. ↩
i 번째 항목만 1 이고 나머지는 0인 벡터를 말한다. 기저 (Standard basis)라고도 한다. ↩
f가 Concave function 인 경우에는 부등호의 방향이 반대가 된다. f(n∑i=1λixi)≥n∑i=1λif(xi) ↩