물리학과 첨단기술

특집

2024 노벨물리학상

최적화: 기계학습의 심오한 수수께끼

작성자 : 노영균 ㅣ 등록일 : 2024-12-20 ㅣ 조회수 : 2,385 ㅣ DOI : 10.3938/PhiT.33.033

저자약력

노영균 교수는 한양대 컴퓨터소프트웨어학부 부교수이며 고등과학원 인공지능기초연구센터를 겸직하고 있다. 2011년 서울대학교에서 박사학위를 받았고, 2007‒2012년 미국 펜실베니아대 방문학자, 2020‒2021년 미국 로체스터 메이오클리닉 방문학자, 2018‒현재 RIKEN-AIP 방문과학자, 2022-현재 미국 로체스터 메이오클리닉 공동연구자로 공동연구를 진행하고 있다. 노영균 교수는 한양대학교 인공지능대학원 사업 단장이며, 2023년부터 인공지능학과, 지능융합학과, AI응용학과 주임교수를 맡고 있다. 2024년부터 물리학과를 겸임하고 있다. 2015년 NeurIPS, 2017년 ACML 조직위원이었고, 연구에 있어서 비모수방법과 정보이론의 인공지능 적용, 확산 모델을 통한 데이터 생성과 새로운 알고리즘 개발에 관심을 가지고 있다. 의료 분야, 고에너지물리 분야, 단백질 구조 예측과 같은 바이오 분야 등에 꾸준히 응용 논문을 출판하고 있다. (nohyung@hanyang.ac.kr)

Optimality: The Unfathomable Mysteries of Machine Learning

Yung-Kyun NOH

The remarkable advancements in artificial intelligence have transformed industrial productivity and propelled scientific discovery. Its history and the flow of trends parallel those of physics: leveraging insights from procedural algorithms to explain empirical results and then seeking optimality for a principled understanding of the system. In this article, I will recollect some of those patterns in history and envision the progress of future understanding. A good understanding has led the community to new ideas by providing focus and setting trends for future exploration. Through mathematical insights into real-world problems, those with a background in physics can uncover novel and nontrivial knowledge in machine learning.

들어가며

기계학습의 초기 발전에 물리학자들의 기여가 상당하였다. 이는 기계학습 발전이 고전 물리학의 발전 과정을 비슷하게 따르게끔 만들었다. 기계학습은 현재 상업적으로, 그리고 과학 발전을 위한 새로운 도구로 크게 성공했으며, 지난 30여 년의 기계학습의 발전은 질적인 면과 양적인 면 모두 토마스 쿤의 과학 혁명에 비견될 만하다.

이 글에서는 기계학습 연구의 흐름에서 절차적 알고리즘에 최적화의 해석을 적용하게 된 배경에 대해 설명한다. 기계학습의 학술적 연구가 수학적 통찰력을 이용해 실용적인 응용을 만들어내는 새로운 도전적인 연구의 영역임을 보인다.

서 론

데이터를 통해 일반화(generalization)1) 능력을 지닌 예측함수를 정한다는 개념인 “예를 통한 학습(learning from examples)”은 기계학습의 저변에 깔린 방법이다. 이것은 예측함수가 학습용 예제인 데이터로부터 패턴을 학습하여 학습된 데이터를 잘 맞춤과 동시에 학습되지 않은 데이터에 대해서도 비슷한 능력을 발휘할 수 있는 일반화 능력을 지녀야 한다.

고전적 인공지능 연구자들은 지능의 기능을 심볼화하고 기능주의의 철학적 입장을 취하면서 논리와 추론을 도구로 사용해 기능을 수행하는 규칙을 개발하려 했다. 이는 “예를 통한 학습”이라는 개념을 사용하는 기계학습 연구자들과는 극명하게 대비되었다.

반면 기계학습 연구자들은 실제 신경세포의 물리적 정보처리 과정을 모사하는 데 주목했다. 자생적으로 발전했던 기계학습 연구는 고전적 인공지능 커뮤니티와 이별을 고했으나, 한편 다른 연구 영역에 속한 상태로 발전을 하기에도 어려운 상황이었다. 예를 들어 기계학습 연구자들은 통계적 방법을 도입하며 발전했지만 이들이 필요로 했던 고차원 데이터에 대한 통찰력은 통상 한두 개의 확률 변수를 적용하는 통계학자들의 수학적 방법들과 달라야 했다.

이 과정에서 이들이 만드는 모델은 공학, 의료, 인문과학 등에서 널리 사용되던 단편적인 데이터 분석 방법들과 다양한 연관성이 있음이 드러났고, 기계학습은 이들을 통합하는 형태로 틀이 잡혀갔다. 기계학습이 다양한 방법들을 통합하는 과정에서 공간에 대한 물리학적 상상력이 유용하게 활용되었고, 물리학에서 일상적으로 쓰이는 수학적 사고 기법들은 알고리즘 동작 방식에 대한 독창적인 해석을 제공했다.

기계학습의 발전은 지적 호기심과 실용적인 측면 모두를 만족시키며 이루어졌다. 지능이 신경세포 수준으로 환원되어 설명이 가능할지에 대한 호기심, 고차원 데이터 분석에 대한 새로운 수학적 도구의 필요성, 기존 데이터 분석 알고리즘에 대한 통합적 이해의 틀의 제공, 마지막으로 새로운 유용한 알고리즘의 출현에 대한 기대가 맞물려 많은 연구자들이 다양한 목적성을 지니며 기계학습 분야는 그야말로 폭발적으로 성장하기 시작하였다.

이 글에서는 이러한 기계학습 연구가 어떤 방식으로 생각의 틀을 쌓아 왔는지 설명한다. 먼저 이들의 초기 연구는 동작하는 절차적 알고리즘을 만든 후 이를 특정 함수를 최적화의 과정으로 해석하며 이를 원리적으로 이해하는 과정을 거치는 과정을 겪었다. 이러한 과정에서 다양한 알고리즘을 최적화라는 틀에서 통합하고자 하는 강력한 동기가 마련되었는데, 마치 물리학에서 힘과 운동에 대한 뉴턴의 운동 법칙이 나중에 작용값(action)의 최적화 원리로 설명된 것과 유사한 형태를 보여준다. 기계학습 알고리즘들을 최적화의 관점에서 통합하고 체계화하려는 노력은 물리학에서 작용값의 최적화라는 틀을 기반으로 다양한 수준의 물리 이론을 하나로 통합하려는 대통합 이론의 구축 시도와 맥락을 같이 한다.

다음 장에서는 인공지능 분야에서 단편적인 지식들이 하나의 설명 틀 안에 통합되었던 과정을 설명한다. 특히 퍼셉트론 수렴 증명(perceptron convergence theorem)의 의의를 설명하고 이 증명을 최적화 기반 알고리즘 해석과 연결시킬 때 현재 기계학습 커뮤니티가 직면한 미해결 문제들이 어떻게 드러나고 있는지 살펴볼 예정이다. 마지막으로 향후 관련 분야의 발전 방향에 대해 논의하면서 글을 마무리하려 한다.

절차적(Procedural) 알고리즘과 최적화 알고리즘

인공지능 학문은 무엇보다 실용성을 최우선 가치로 두는 학문이다. 원리를 수학적으로 이해하고자 하는 욕구가 강하지만 실용적인 측면에서 의미가 있는 연구가 더 큰 가치를 가진다. 이런 맥락에서 초창기 많은 기계학습 알고리즘들은 결과를 점진직으로 개선해 보려는 탐욕 알고리즘(greedy algorithm), 혹은 절차적 알고리즘(procedural algorithm)의 형태를 띠었다. 탐욕 혹은 절차적 알고리즘은 \(\small t\)시점의 상태만을 사용해 \(\small t+1\)시점의 상태를 어떻게 업데이트할지에 대한 절차적인 안내를 제공하는 알고리즘이 된다. 이러한 방식을 탐욕 알고리즘이라 부르는 이유는 이 알고리즘이 현재 상태에 대한 찰나의 개선을 위해 만들어진 알고리즘으로 임시방편으로 문제를 해결해 나가기 때문이다.

이런 알고리즘이 제시된 절차에 따라 현 상황을 개선하는 것으로 보이고, 알고리즘을 적용시킨 실증적(empirical) 결과에서 충분한 성능 개선이 확인되는 정도면 기계학습 알고리즘으로 문제가 없다.

한편 최적화에 기반한 알고리즘은 먼저 최적화하고자 하는 목적함수를 설정한다. 기계학습에서 대부분 목적함수는 아래 식 (1)과 같이 보통 학습 데이터에 대한 예측 능력을 나타내는 손실함수(loss) 항과 규칙화(regularization)를 위한 항으로 구성되어 있다.

\[L({\mathbf{w}})= {\mathrm{Loss}}({\mathbf{w}}) + \lambda \cdot {\mathrm{Regularization}} ({\mathbf{w}}) \tag{1}\]

최적화는 이 목적함수를 최소화시키는 과정으로 실질적으로 이들을 최적화하는 파라미터를 찾는 절차적인 알고리즘은 경사하강법(gradient descent)으로 만들 수 있다. 예측 함수를 결정하는 \(\small p\)개의 파라미터 \(\small {\mathbf{w}} \in \mathbb{R}^p\)를 이용하여 아래의 식 (2)와 같이 미분 \(\small \frac{dL}{d{\mathbf{w}}} \in \mathbb{R}^{p}\)을 이용한 절차적 알고리즘을 만들면,

\[\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \frac{ dL}{d \mathbf{w} },~~ t=1,2, \ldots , \tag{2}\]

작은 양수 \(\small \eta >0\)에 대해 목적함수 \(\small L\)이 계속해서 줄어들게 만들 수 있다.

1. 홉필드 네트워크(Hopfield Network)2)

예를 들어 헵(Hebb)의 법칙이라 알려진 신경세포에 대한 관찰로 함께 발화하면 세포가 물리적으로 이어지는 현상을 수식화해 홉필드 네트워크의 연결강도를 정하는 수식으로 사용했는데, 이는 알고리즘이 동작하는 절차를 제공하는 절차적 알고리즘이다.3) \(\small N\)개의 데이터 \(\small {\mathbf{x}}_{i} \in \{1, 0 \} ^{D}, i=1, \ldots , N\)에 대해 \(\small x _{i}^{l}\)을 \(\small {\mathbf{x}}_{i}\)의 \(\small l\)번째 성분이라 할 때, 아래 가중치 \(\small w _{kl}, k, l = 1, \ldots, D\)를 가지고,

\[w _{kl} = \sum _{i=1} ^{N} (2x _{i}^{k} -1)(2x _{i}^{l} -1), i \neq j, \tag{3}\]\[w _{ll} =0 , \tag{4}\]

\(\small t\) 시점에서 데이터를 업데이트하는 아래와 같은 절차적 알고리즘을 만든다.

\[x ^{l, (t+1)} = \sum _{k=1} ^{D} w _{kl} x ^{l, (t)} \tag{5}\]

이 절차적 알고리즘을 Ising 모델의 에너지 수식으로 바꾸어 저장된 정보가 가장 낮은 에너지를 갖도록 만들었다는 해석을 제공하면 이는 최적화를 이용한 해석이 된다. 즉, 아래와 같은 에너지를 정의하고,

\[E=- \frac{1}{2} \sum _{l \neq k} ^{} \sum _{k} ^{} w _{kl} x ^{k} x ^{l} , \tag{6}\]

이를 최소화하는 상태(state) \(\small \mathbf{x}\)들을 저장된 정보들로 해석하면, 위에 제시된 절차적 알고리즘이 에너지를 최소화하도록 상태를 이동시켜 저장된 데이터를 찾아준다.

2. 아다부스트(AdaBoost) 알고리즘

최적성에 대한 해석을 통해 절차적인 알고리즘이 원리적으로 잘 정의된 것처럼 보이게 만들어진 예는 많이 존재한다. 아다부스트 알고리즘은 앙상블(emsemble) 알고리즘으로, 단순한 모델의 선형 결합을 통해 유연한 예측 함수를 만들 수 있다.

현재까지 학습된 예측 함수가 다음 학습을 위해 학습 데이터에 가중치를 부여하고 재학습시키는 과정을 반복하여 학습을 진행하는 알고리즘인데, 이 과정을 여러 번 거친 뒤 학습된 모든 예측 함수들의 선형 결합으로 최종 예측함수를 만들게 된다. 분류에 실패한 데이터에 가중치를 주는 방법, 선형결합 상수를 정하는 방법이 절차적 알고리즘으로 정해져 있다.

데이터마다 가중치를 두되 이 가중치를 \(\small d _{i}^{(1)} =1/N\)와 같이 균등한 확률분포로 초기화하고, 가중치를 정해진 절차에 맞춰 갱신하며 학습을 시킨다. 임의의 \(\small t\)시점에서 가중치가 적용된 데이터의 분류항목 \(\small y _{i} \in \{ 1,-1 \}\)을 맞추도록 \(\small t\)번째 예측 함수 \(\small f _{t} (\mathbf{x})\)를 학습시킨다. 이 함수에 대한 에러와 학습시킨 예측 함수의 가중치를 아래 식과 같이 얻을 수 있다.

\[\begin{align} &\textsf{에러}: ~~\epsilon _{t} = \sum _{i=1} ^{N} d _{i}^{(t)} I ~~(y _{i} \neq f _{t} (\mathbf{x}_i ))\\&\textsf{가중치}: ~~\alpha _{t} = \frac{1}{2} \log \frac{1- \epsilon _{t}}{\epsilon _{t}} \tag{7}\end{align} \]

이를 통해 데이터에 대한 가중치를 다음 단계 학습을 위해 업데이트한다.

\[d _{i}^{(t+1)} =d _{i}^{(t)} \exp (- \alpha _{t} y _{i} f _{t} (\mathbf{x}_i ))/Z _{t} \tag{8}\]

여기서 \(\small Z _{t}\)는 가중치 확률분포를 유지하기 위한 적절한 상수이다.

\(\small T\)번의 실행 후 얻어진 예측 함수 가중치 \(\small \alpha _{1} ,\ldots, \alpha _{T}\)와 예측 함수들 \(\small f _{1} (\mathbf{x}), f _{2} ({\mathbf{x}}), \ldots, f _{T} ( {\mathbf{x}} )\)이 얻어졌으면 이를 가지고 아래의 최종 예측 함수를 만들 수 있다.

\[F( {\mathbf{x}} )= \sum _{t=1} ^ {T} \alpha _{t} f _{t} ( \mathbf{x} ) \tag{9}\]

이러한 절차적 알고리즘으로 만들어진 최종 선형결합 \(\small F({\mathbf{x}})\)가 이후에 아래의 지수손실함수(exponential loss function)를 최소화한다는 것이 알려져 아다부스트 알고리즘이 보다 원리적인 해석을 얻게 된다.4)

\[L= \frac{1}{N} \sum _{i=1} ^{N} \exp(-y _{i} F( {\mathbf{x}}_{i} )) . \tag{10}\]

3. 최적화 식의 변형을 통한 알고리즘의 변형

이와 같이 절차적 알고리즘에 최적화 목적함수를 할당하는 것은 알고리즘을 통해 얻게 되는 결과가 무엇인지 원리적으로 이해할 수 있게 하며, 동시에 알고리즘의 변형을 목적에 맞게 쉽게 할 수 있도록 해준다. 예를 들어 주성분분석(principal component analysis)의 경우, \(\small k\)개의 주성분을 찾기 위해 다음과 같은 복원 손실을 최소화하는 행렬 \(\small W \in \mathbb{R}^{D \times k}\)을 찾는 문제를 고려하게 된다:

\[L= \sum _{i=1} ^{N} \vert \vert {\mathbf{x}}_{i} -WW ^{\top} \mathbf{x}_i ||^2 . \tag{11}\]

이 최적화 문제는 아주 잘 알려진 형태의 문제로 \(\small D\times D\)차원 행렬의 고윳값 문제를 풀어 \(\small W\)행렬을 얻을 수 있다. 하지만 이러한 방법은 이상치 데이터의 포함 여부에 굉장히 민감해 강건(robust)한 알고리즘 개발이 필요한데, 아래와 같이 추가 파라미터 \(\small v _{i} \in [0,1]\)를 도입, 목적함수를 아래와 같이 변형시켜 문제를 완화시킬 수 있다.5)

\[L= \sum _{i=1} ^{N} [v _{i} \vert \vert {\mathbf{x}}_{i} -WW ^{\top } {\mathbf{x}} _{i} \vert \vert^{2} + \eta (1- v _{i} )] \tag{12}\]

변형된 목적함수를 최적화시키기 위해 각 샘플에 주어진 \(\small v _{i}\)값은 복원이 어려운 샘플에 대해 \(\small v _{i}\) 값을 낮추어 첫 번째 항의 값이 커지는 것을 방지한다. 이와 같이 절차적 알고리즘과 달리 최적화 문제로 만들어진 알고리즘은 알고리즘을 변경했을 때 최종 결과에 미치는 영향을 예상하는 것이 가능하다. 일단 목적함수가 만들어지면 절차적 알고리즘의 구현은 Theano, Tensorflow, PyTorch 등의 자동 미분 기능의 도움을 받을 수 있어 최적화 알고리즘을 사용하는 것이 구현 면에서도 용이하다.

4. 최적화의 틀을 이용한 알고리즘의 통합

물리 법칙이 유용한 이유는 예측을 할 수 있기 때문이다. 고전역학을 이용하여 물체의 위치를 예측하는 방법을 생각한다면, 먼저 우리는 뉴턴의 세 가지 기본 법칙을 만족시키는 모든 위치와 시간의 함수를 고려한다. 이 함수 가운데 물체의 현재 위치, 속도, 힘, 질량 등의 정보를 얻어 이들 정보에 맞는 하나의 함수를 특정하여 예측에 사용한다.

이러한 과정이 기계학습의 예측 과정이다. 기계학습은 “모델”이라는 집합에 후보 함수들을 모아 놓고, 학습 데이터를 잘 맞추는 하나의 함수를 선정하여 예측에 사용한다. 예를 들어 가우시안 모델을 사용한다고 하면 무한 개의 가우시안 함수들 가운데 데이터로부터 추정된 평균과 분산을 가진 하나의 가우시안 식을 골라 예측에 사용한다. 딥러닝 모델을 사용한다고 하면 뉴럴 네트워크가 표현할 수 있는 모든 함수의 집합을 고려하게 되는 것이고, 손실함수 측면에서 주어진 학습 데이터를 가장 잘 설명하는 파라미터를 결정하면 예측을 위한 함수를 골라내게 되는 것이다.

물리 법칙을 이용한 예측은 작용값을 최소화하는 함수들만 모아 놓은 단순화된 모델을 이용하지만, 기계학습의 모델은 그만큼 정밀하고 잘 재단되어 있지는 않다. 하지만 기계학습은 이런 모델 선택(model selection)의 문제를 규칙화(regularization) 항을 최적화 목표 함수에 두는 방식으로 해결한다. 모델 집합은 많은 함수를 포함하고 있지만 최적화 과정을 통해 규칙을 어기는 함수가 실질적으로 뽑히지 않도록 하는 것이다. 작용값을 규칙화 항에 넣고 크기가 큰 복잡한 모델 집합을 고려하면 실질적으로 물리 법칙을 이용한 것과 똑같은 예측을 해낼 수 있다.

Fig. 1. 대리손실함수(Surrogate loss functions).

손실 함수로는 대리손실함수(surrogate loss function)이라 불리는 다양한 함수들이 사용된다. 그림 1에서 보이는 예측 타겟값 \(\small y\)와 예측 함수 \(\small f\)의 곱 \(\small y\cdot f\)에 따른 다양한 볼록 함수들로 구성된 대리손실함수들이 실제로 사용되고 있는 손실함수들이다.6) 음의 크로스 엔트로피(negative cross entropy), 힌지손실(hinge loss), 지수손실(exponential loss), 평균제곱손실(mean square loss) 등의 다양한 대리손실함수가 있으며, 이들 대리손실함수가 최적화되면 f-divergence라는 정보이론값이 되는 것을 유도할 수 있다. 이러한 볼록한 함수들의 형태가 학습 데이터에 대한 같은 예측 성공률을 보이는 함수라 하더라도 경계선에서 데이터까지의 거리를 크게 만드는 마진(margin)이 큰 경계를 찾을 수 있게 작용해 일반화를 도울 수 있게 한다.

5. 확률모델과 최적화

다음으로 간단히 살펴볼 통합은 확률모델과 최적화 알고리즘의 통합이다. 대리손실함수를 최적화하여 얻은 예측 함수가 최대우도법을 사용에 얻은 학습과 동일한 결과를 내는 확률 모델이 존재한다. 평균제곱손실은 가우시안 모델과 대응되며, 음의 크로스 엔트로피는 이항분포에 대응된다. 대응되는 확률 모델을 찾는 방법은 음수를 곱하여 지수승(exponential)한 식을 정규화(normalize)하면 된다. 그 이유는 손실함수는 덧셈한 것을 최소화하는데 확률모델의 최대우도는 곱한 것을 최대화시키기 때문이다.

퍼셉트론(Perceptron)과 로지스틱 회귀(Logistic Regression)

퍼셉트론은 최적화 알고리즘으로 바뀌지 않았던 절차적 알고리즘이다. 반면 로지스틱 회기는 목적함수가 설계된 최적화 알고리즘이다. 두 알고리즘은 다른 알고리즘이지만 실제 학습을 위해 업데이트하는 식을 보면 신기하게도 매우 닮아있다. 하지만 여전히 퍼셉트론에 적용되는 퍼셉트론 수렴 정리와 같은 의미 있는 이론적 결과는 로지스틱 회기에는 적용되지 않는다. 이러한 사실이 오늘날 최적화 알고리즘으로 대표되는 딥러닝의 신비로운 성공을 이해하는 데 제공하는 메시지가 있는지 논의한다.

1. 퍼셉트론

퍼셉트론은 이진(binary) 분류를 위한 선형 알고리즘으로 인공지능의 역사에서 아주 중요한 위치를 차지하는 비최적화 알고리즘이다. 고정된 차원 \(\small D\)를 가지며 인덱스 \(\small i=1, \ldots ,N\)를 가지는 \(\small N\)개의 학습 데이터 \(\small {\mathbf{x}} _{i} \in \mathbb{R}^{D}\)와 예측 대상인 \(\small y_i \in \{1, -1\}\)을 생각하면, 아래의 계단 함수(step function) \(\small \sigma(s)\)에 대해,

\[\sigma(s) = \begin{cases}~~~1& \mathrm{if}~~ s \geq 0\\-1& \mathbf{otherwise} ,\end{cases} \tag{13}\]

벡터 파라미터 \(\small {\mathbf{w}} \in \mathbb{R} ^{D}\)를 가지고 다음과 같은 예측 함수를 고려하는 것이 퍼셉트론이다:

\[y = \sigma ( \mathbf{w} ^{\top} \mathrm{x}). \tag{14}\]

학습 데이터에서 이 함수에 대해 잘못된 예측 결과를 내는 하나의 샘플 \(\small \mathbf{x}_{l} , y _{l}\)을 골라 업데이트 스텝 \(\small t\)에서 아래 업데이트를 진행할 수 있는데,

\[{\mathbf{w}} _{t+1} = {\mathbf{w}} _{t} +y _{l} {\mathbf{x}} _{l} , \tag{15}\]

Fig. 2. 데이터 공간에서 데이터를 감싸는 구의 반지름 과 데이터를 나누는 경계로부터 데이터까지의 마진 (The radius of a sphere that enclose data in the data space and the margin from the boundary to the data.

Fig. 2. 데이터 공간에서 데이터를 감싸는 구의 반지름 \(\small R\)과 데이터를 나누는 경계로부터 데이터까지의 마진 \(\small \gamma\)(The radius \(\small R\) of a sphere that encloses data in the data space and the margin \(\small \gamma\) from the boundary to the data.

이 단순한 절차적 알고리즘이 선형적으로 분리 가능한(linearly separable) 데이터에 적용시키면 학습 데이터를 모두 실수 없이 분류하는 선형 경계(linear boundary)를 찾을 때까지의 스텝 수를 한정지을 수 있다. 그림 2에서와 같이 데이터를 감싸는 데이터 공간의 구가 반지름 \(\small R\), 데이터를 모두 분류하는 경계로부터 가장 가까운 샘플까지의 거리를 마진(margin) \(\small \gamma\)라고 했을 때, 경계가 \(\small R^2 / \gamma^2\)를 넘지 않는 횟수에 모든 학습 데이터를 완벽히 분류하는 경계를 반드시 찾아진다는 것이다.7)8)9)

이 이론적인 결과는 매우 놀라운 고전적인 결과이다. 학습 데이터 \(\small N\)개 모두를 오류없이 분류할 수 있는 파라미터 \(\small \mathbf{w}\)를 찾는 업데이트의 횟수가 데이터의 수 \(\small N\)과 함수의 차원 \(\small D\)에 상관 없이 결정된다는 것이다. 예를 들어 다른 분류항목의 데이터가 멀리 떨어져 있어서 마진만 큰 값을 가지게 된다면, 데이터의 차원이 아무리 높더라도 학습의 난이도가 높지 않다는 것이다. 현대의 최적화 이론은 최적화 공간의 “차원”이 문제를 어렵게 만드는 근본 원인으로 간주하고 있어 이들 결과를 하나로 통합하여 이해하는 데 어려움이 있다.10)

2. 로지스틱 회기

로지스틱 회기는 퍼셉트론과 비슷한 업데이트를 실행하는 “최적화” 분류 알고리즘이다. 먼저 이 알고리즘을 간단히 설명하면 시그모이드(sigmoid) 함수

\[\sigma ({\mathbf{x; w}} )= \frac{1}{1 + \exp ( {\mathbf{w}}^{\top } {\mathbf{x}} )} \tag{16}\]

를 가지고 아래에 적힌 음의 크로스 엔트로피(negative cross entropy)11) 목적함수를 최소화하는 알고리즘이다.

\[L( {\mathbf{w}} )= \frac{1}{N} \sum _{i=1} ^{N} -y _{i} \log \sigma ( {\mathbf{x}} _{i} ; {\mathbf{w}} )-(1-y _{i} )\log(1- \sigma ( {\mathbf{x}}_{i} ; {\mathbf{w}}))\tag{17}\]

단, 여기서 \(\small y_i\)가 가질 수 있는 값은 \(\small \{0,1\}\)이다. 이 목적함수를 최소화하기 위한 알고리즘으로 아주 작은 수 \(\small \eta >0\)를 가지고 아래와 같은 경사하강법(gradient descent algorithm)을 생각할 수 있는데,

\[{\mathbf{w}}_{t+1} = {\mathbf{w}} _{t} - \eta \frac{dL}{d {\mathbf{w}}} ,\tag{18}\]

이 방법으로 다음과 같은 로지스틱 회기의 “절차적 알고리즘”의 식을 얻을 수 있다.

\[ {\mathbf{w}} _{t+1} = {\mathbf{w}} _{t} - \eta \sum _{i=1} ^{N} ( \sigma ( {\mathbf{x}} _{i} ; {\mathbf{w}} _{t} )-y _{i} ) {\mathbf{x}} _{i} .\tag{19}\]

로지스틱 회기 문제의 최적화 목표 함수는 파리미터 \(\small \mathbf{w}\)에 대해서 볼록(convex) 형태이므로 로지스틱 회기는 볼록 최적화(convex optimization) 문제이며, 위의 경사하강법에 의한 절차적 방법은 목적함수를 최소화시키는 파라미터를 반드시 찾아낸다. 최적화 관점에서 좋은 성질을 가진 문제이다.

하지만 최적화 문제를 푸는 많은 알고리즘은 많은 경우 식 (19)와 같은 모든 데이터를 사용하는 식을 이용하지 않고, 데이터의 일부, 혹은 하나씩만 사용하여 업데이트하는 온라인 알고리즘을 만들어 사용한다. 식 (19)에 대한 온라인 학습의 형태로 샘플을 하나만 골라 아래와 같이 변형시킬 수 있다.

\[{\mathbf{w}} _{t+1} = {\mathbf{w}} _{t} + \eta (y _{i} - \sigma ( {\mathbf{x}} _{i} ; {\mathbf{w}} _{t} )) {\mathbf{x}} _{i}\tag{20}\]

이렇게 업데이트하는 방법은 경사하강법으로 업데이트하는 식 (19)와 다른 최적해를 준다.12) 오히려 여기서 선택된 샘플의 분류항목값 \(\small y_i\)가 0 또는 1, 그리고 알고리즘이 예측하는 분류항목값 \(\small \sigma ( {\mathbf{x}} _{i} ; {\mathbf{w}} _{t} )\)가 0 또는 1에 가까운 값을 내보내는 네 가지 경우를 따져 보면 식 (20)의 업데이트 식은 퍼셉트론의 업데이트 식 (15)와 \(\small \eta\)를 제외하고 완전히 동일하다는 것을 알 수 있다.

식 (20)과 같은 온라인 알고리즘은 반드시 최적함수 (17)을 줄이는 방향으로 파라미터를 움직이지는 않는다. 극단적인 경우 데이터를 한 번 모두 사용하여 온라인 알고리즘으로 학습시켰을 때, 목적함수 값이 내려가지 않고 올라가는 것도 가능하다. 하지만 이 온라인 알고리즘은 퍼셉트론의 이론적 결과가 적용되어 선형 분리가 되어있는 데이터에 대해 차원에 적용받지 않는 수렴 속도를 가질 것이다.

3. 풀리지 않은 문제

현대 딥러닝 연구는 모두 최적화 목적함수를 디자인한 후 통계적 경사하강법(Stochastic Gradient Descent, SGD)이라는 온라인 알고리즘을 사용한다. SGD는 로지스틱 회기의 온라인 학습 방법처럼 소수의 데이터로 이루어진 미니배치를 사용하며, 현재는 많은 사람들이 경사하강법을 그대로 사용한 것이 아니라 온라인 알고리즘인 SGD를 사용한 것이 딥러닝 학습의 성공을 가져온 가장 결정적인 요소 가운데 하나였을 것으로 생각한다.

딥러닝이 이미지넷 데이터를 가지고 성공을 거두기 시작하던 시기 최적화 전문가들은 무엇인가 그들의 직관과 전혀 다른 상황이 전개되고 있음을 알고 있었다. 당시에 딥러닝의 심층 구조가 성공을 부른 열쇠라고 알려지고 있었으나 사실 최적화 관점에서는 많은 파라미터를 가진 상황에서 일반화가 잘 되는 국소최솟값(local minimum)을 찾아 들어가는 일은 쉬울 수가 없는 일이었다.

계산 속도와 메모리를 아끼는 면을 보고 SGD를 사용했으나, 운이 좋게도 이 방법이 좋은 학습 결과를 내기 위해서 결정적으로 유효했었다는 것은 사실인 것 같다. 다만 실제로 왜 이 방법이 유효했는지 설명하는 여러 가설들은 아직 근거를 명확히 제공하고 있지 못하다. 많은 파라미터 상황에서 SGD라는 알고리즘이 만들어내는 내재적 편향(implicit bias)을 알아내려는 노력, 파라미터가 극단적으로 늘어날 때 데이터에 과적합하다 오히려 일반화성능이 다시 좋아지기 시작하는 이중감소(double descent) 현상에 대한 설명 노력 등이 열심히 진행되고 있다.

퍼셉트론 수렴 증명은 이러한 상황에 큰 메시지를 던져주고 있다. “최적화 알고리즘” 관점에서 연구자들은 알고리즘의 체계를 더 잘 이해하고 알고리즘의 탐색을 잘할 수 있는 기반을 다졌다고 생각했지만, 새로 나온 실증적 결과들은 우리가 아는 최적화 알고리즘의 틀에서 적절한 설명을 제공하지 못하고 있다.

반면 퍼셉트론과 같이 절차적 알고리즘의 입장에서 이 문제를 풀 수 있는 힌트를 주고 있을지도 모른다. 어쩌면 최적화 알고리즘으로 문제를 바라보는 것이 해결을 오히려 방해하는 것일 수 있다. 적어도 퍼셉트론 알고리즘에 대한 연구 결과는 최적화 알고리즘의 온라인 알고리즘화 된 좋은 절차적 알고리즘 방식이 존재하고, 절차적 알고리즘의 입장에서 관점을 달리 보면 문제를 설명하는 방법을 찾을 수도 있다는 메시지를 주고 있을지도 모른다.

맺음말

인공지능 연구에 있어서 많은 알고리즘들의 관련성을 이해할 수 있다는 것은 특정 알고리즘이 가진 문제를 해결할 수 있는 힌트를 다른 알고리즘의 관점에서 찾을 수 있다는 것을 뜻한다. 리소스의 부족으로 취한 SGD같은 온라인 알고리즘의 선택이 결과적으로 큰 성공을 가져온 것은 인류에게는 큰 행운이다. 하지만 이제 이러한 큰 성공의 이유를 잘 이해할 수 있는 좋은 이론을 만드는 것이 우리에게 주어진 숙제가 되었다.

물리학자들은 신비로운 실증적 현상을 새로운 수학적 통찰력으로 설명해 내는 모습을 보여 왔다. 현재 인공지능은 앞으로 나아가기 위해 이러한 능력을 지닌 연구자들이 필요한 시점이다. 지난 30여 년간 혁명기를 거쳐온 기계학습과 인공지능 분야는 또 다른 도약을 앞에 두고 있다. 상대성이론이 나오기 직전의 상황, 광자이론과 보어의 코펜하겐 해석이 나오기 직전의 상황과 진배 없다.

사사(Acknowledgements)

이 글은 NRF/MSIT (No. RS-2024-00421203), IITP/MSIT (RS-2020-II201373)의 지원을 받아 작성되었다.

각주: 1)일반화는 학습 데이터에서 학습시킨 정보가 학습시키지 않은 데이터의 예측에 사용될 수 있는 성질을 가리킨다.; 2)2024년 노벨상이 수여된 알고리즘으로 오늘날 딥러닝의 기반을 닦은 모델로 평가된다. 특정 값을 그대로 저장하는 메모리가 아니라 값들 사이의 관계(association), 즉 패턴을 저장함으로써 저장된 정보를 추출(retrieval)해내는 것이다. 홉필드 네트워크는 바로 Ising 모델의 에너지 모델로 해석이 되어 저장된 패턴이 유인자(attractor)로 작용하는 절차적 알고리즘을 제공한다.; 3)J. J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proc. Natl. Acad. Sci. USA. 79, 2554 (1982).; 4)R. E. Schapire, Explaining AdaBoost. In: Schölkopf, B., Luo, Z., Vovk, V., Empirical Inference (Springer, Berlin, Heidelberg, 2013).; 5)Lei Xu and A. L. Yuille, Robust principal component analysis by self-organizing rules based on statistical physics approach, IEEE Transactions on Neural Networks 6, 131 (1995).; 6)P. L. Bartlett, M. I. Jordan and J. D. McAuliffe, Convexity, Classification, and Risk Bounds, Journal of the American Statistical Association 101, 138 (2006).; 7)F. Rosenblatt, The perceptron: A probabilistic model for information storage and organization in the brain, Psychological Review 65, 386 (1958).; 8)M. L. Minsky and S. A. Papert, Perceptrons (Cambridge, MA, MIT Press, 1969).; 9)퍼셉트론 수렴 정리(perceptron convergence theorem); 10)Barron 공간에서의 함수 최적화는 푸리에 도메인에 제약 사항을 두어 차원 독립적인 수렴 결과를 도출하고는 있다.; 11)혹은 단순히 확률 모델에 대한 최대로그우도(maximum log likelihood)방법을 사용하더라도 같은 식에 도달한다.; 12)\(\small\sigma ( \mathbf{x}_i ; \mathbf{w}_t )\)에서 샘플마다 다른 \(\small\mathbf{ w}_t\)값이 적용된다.