특집
2024 노벨물리학상
비평형 통계역학과 확산 모델의 만남
작성자 : 한정훈 ㅣ 등록일 : 2024-12-20 ㅣ 조회수 : 1,129 ㅣ DOI : 10.3938/PhiT.33.035
한정훈 교수는 1997년 미국 워싱턴 대학에서 데이비드 사울레스 교수(2016년 노벨 물리학상)의 지도로 응집 물리학 이론 박사 학위를 받았다. 2003년부터 성균관대학교에서 물리학과 교수로 재직 중이다. 다강체 이론, 보스-아인슈타인 응집체 이론, 자성체 스커미온 이론, 다중 궤도 물질계의 궤도 각운동량 이론, 양자 자석의 열 홀 효과 이론 등에 기여했다. 최근에는 쌍극자 대칭성이 있는 애니온 이론, 고전적 확산 이론, SPT 이론 등을 개발하는 데 참여했다. 자성체 스커미온에 대한 전공 서적 < Skyrmions in Condensed Matter >를 2017년 출판했다. 2020년에는 대중 과학 서적 <물질의 물리학>을 출판해 그 해 한국출판 문화상(교양서적 부문)을 수상했다. 다음 책 <양자 문명>을 준비하고 있고, 응집 통계 물리 기법을 이용해 기계 학습에 기여를 할 수 있을까 탐색하는 중이다. (hanjh@skku.edu)
Nonequilibrium Thermodynamics Meets Diffusion Model
Jung Hoon HAN
It is becoming increasingly clear that well-established techniques in information theory and many-body physics are having an important bearing on various models of AI. I discuss one such prominent example known as the diffusion-based generative AI, or simply the diffusion model, whose ideas are firmly rooted in nonequilibrium statistical physics. I argue that data science may be the new “thermodynamics” of the 21st century and the time is ripe for physicists to make meaningful contributions to it.
들어가며
힌튼과 홉필드의 2024년 노벨 물리학상과 더불어 데이터는 ‘새로운 물질’이 되었고, 인공 지능은 ‘새로운 열역학’으로 자리 잡았다. 컴퓨터 과학, 특히 새로운 알고리즘 개발은 수학자, 혹은 수학적 사고에 능숙한 전문가들의 영역이었는데 비해 요즘 각광받는 인공 지능 모델은 오히려 물리학적 사고에 기반을 두고 있다. 인공 지능 모델의 작동 원리를 제시하는 것이 물리학이 추구해야 할 새로운 도전으로 자리 잡고 있다.
나침반이 항해의 도구로 사용된 것은 12세기(중국)와 13세기(유럽)로 알려졌지만 나침반의 기본이 되는 자석의 원리를 체계적으로 탐구한 것은 무려 4세기가 지난 1600년 출판된 길버트의 책이 최초다. 증기기관은 제임스 와트의 손으로 완성되어 산업 혁명을 주도했지만, 막상 그 작동 원리가 열역학이란 이름으로 정리된 것은 그로부터 반세기가 지난 뒤 등장한 사디 카르노의 저술이었다. 인공 지능은 현대판 증기기관인 양 새로운 산업 혁명을 주도하고 있지만 그 작동 원리를 이해하는 작업은 한참 뒤처져 있다. 인공 지능 공학자의 관심이 좀 더 적은 전력을 소모하면서 더 빠르게 작동하는 알고리즘을 개발하는 것이라면 물리학자들은 그 배경에 천착하여 작동 원리를 찾아내기에 좋은 시점이다.
이 글은 물리학, 특히 비평형 통계물리학이 확산 모델(diffusion model)로 불리는 인공 지능 생성 모델을 이해하는 데 어떤 역할을 하고, 또 도움을 주는지 설명한다.
확산 모델에 대한 일반적인 이해
정보 이론의 중요한 결과 중에 데이터 처리 부등식(Data Processing Inequality, DPI)이란 게 있다. 한 무더기의 데이터 X로부터 다른 데이터 Y를 생성하고, Y를 이용해 다시 Z라는 데이터를 생성한다. 각 생성 과정은 마코프 과정(Markov process)을 따르기 때문에 X와 Z의 상호 의존성은 없다. 조건부 확률 함수를 도입해서 설명하자면 X라는 데이터 집합에 속한 특정한 원소 x로부터 Y 데이터 집합에 속한 y 값이 나올 확률은 p(y|x)로 주어지고, y라는 데이터로부터 z라는 데이터가 나올 확률은 p(z|y)로 주어질 뿐 y를 만들어낸 선행값 x가 무엇이었는지는 전혀 중요하지 않다는 뜻이다. 이런 과정에 대해 정의된 상호 정보(mutual information) \(\small I(X,Y)\)와 \(\small I(X,Z)\) 사이엔
\[I(X,Y) \geq I(X,Z)\]
란 부등식이 존재한다는 게 DPI의 요지다. 상호 정보는 다체계 이론에서의 상관 함수쯤으로 보면 된다. 두 개의 데이터 집합체 (X,Y) 사이의 상관관계는 (X,Z) 집합체 사이의 상관관계보다 크다. 정보를 한 번 처리할 때마다 본래의 정보는 조금씩 소실된다.
비유를 들자면 X는 한글로 써진 한강의 원작 소설이고 Y는 그걸 영어로 번역한 작품이다. Z는 한글 원작을 참고하지 않은 채 영어 번역본만 이용해 불어로 번역한 한강의 소설이다. 한글 원작과 불어 번역본 사이의 상관관계는 한글판과 영문판 사이의 관계보다 미약해질 수밖에 없다는 게 부등식의 의미다. 이런 무책임한(?) 번역을 백 번쯤 하다보면 최종 번역판은 원작과 딴 판의 새로운 창작물이 되었어도 놀라울 게 없다.
어느날 갑자기 이백 번째 번역본을 이용해 한강의 원작품을 재구성하라는 지시가 떨어졌다고 하자. 어찌할 것인가? 다행히 99명의 번역가들은 각자의 번역 임무를 다하는 동안 나름대로의 번역기를 만들어두었다. n번째 언어로 쓰인 작품에 등장한 \(\small x_n\)이란 문장을 (n+1)번째 언어로 번역할 때는 \(\small x _{n+1}\)이란 문장으로 바꾸었다는 식의 기록물 말이다. 조건부 확률로 표현하자면 \(\small p(x_{n+1} | x_n )\)이란 함수가 매 n에 대해 만들어졌고 이 함수는 어딘가에 잘 저장되어 있다. 막상 한글 원본을 생성할 때 필요한 함수는 이게 아니라 역조건부 확률 \(\small p(x _{n} \vert x _{n+1} )\)이다. (n+1)번째 번역본을 바탕으로 n번째 번역본을 재구성해야 하니 말이다. 다행히 베이즈 정리(Bayes’ theorem)를 이용해서 역조건부 확률 함수를 만들 수 있고, 이걸 이용해 100번째 언어로 쓰인 번역본에서 99번째 언어로 쓰인 번역본을, 이를 토대로 98번째 언어로 쓰인 번역본을 차근차근 만들어내다 보면 결국 한글로 된 작품을 재생할 수도 있다. 이렇게 만든 재생품이 한강의 원작과 완벽하게 같을 수는 없겠지만 매우 유사한 작품은 만들 수 있다는 게 확산 기반 생성 인공 지능이다.
슈뢰딩거의 다리
슈뢰딩거는 양자역학의 파동 방정식을 제안하고 이를 이용해 수소 원자 문제를 최초로 해결했을 뿐 아니라 고양이 비유를 통해 거시 세계와 미시 세계의 다리를, “생명이란 무엇인가”란 저서로 생물과 무생물 사이의 다리를 놓은 인물이다. 이보다는 덜 알려져 있지만 그가 놓은 또 다른 다리 하나가 확산 기반 인공 지능 이론에서 중요한 역할을 하고 있다.
확산 이론에서 어떤 시간과 위치 \(\small ( t _{i} , \vec x _i ) \)에 있던 입자가 나중 시간 \(\small t _{f}\)에는 \(\small {\vec{x _{f}}}\)란 위치에서 발견될 가능성을 조건부 확률 함수 \(\small G ( {\vec{x _{f}}} ,t _{f} \vert {\vec{x _{i}}} ,t _{i} )\)를 통해 구할 수 있고, 이 함수는 확산 방정식의 해로 주어진다. 슈뢰딩거가 1931년 발표한 논문은 여기서 한 걸음 나아가 그 입자가 중간 시간 \(\small t \:(t_i < t < t_f)\)에 특정 위치 \(\small \vec x\)를 지날 확률은 얼마나 되는지를 묻는다. 답은 아래와 같다1):
\[p( {\vec{x}} ,t)= \frac{G( {\vec{x _{f}}} ,t _{f} \vert {\vec{x}} ,t) \cdot G( {\vec{x}} ,t \vert {\vec{x _{i}}} ,t _{i} )}{G( {\vec{x _{f}}} ,t _{f} \vert {\vec{x _{i}}} ,t _{i} )}.\]
마치 다리처럼 한 점과 다른 점을 잇는 중간점을 찾는 문제라고 해서 ‘슈뢰딩거의 다리’라고 부르는 문제의 출발이었다. 이 문제를 일반화하면 “초기 시간 \(\small t_i \)에는 \(\small p (\vec x_i , t_i ) \)라는 확률 분포를 만족하고, 나중 시간 \(\small t _{f}\)에는 \(\small p( {\vec{x _{f}}} ,t _{f} )\)라는 확률 분포가 주어졌을 때, 중간 시간 \(\small t \:(t_i < t < t_f)\)에는 어떤 확률 분포 \(\small p( {\vec x} ,t )\)를 따르는가?” 이런 질문이 된다. 슈뢰딩거가 찾은 답은1)
\[p(x)= \left ( \int _{} ^{} {} d {\vec{x _{f}}} G(x _{f} \vert x ) \phi (x _{f} ) \right) \left( \int _{} ^{} {} d {\vec{x _{i}}} G(x | x _{i} ) \psi (x _{i} ) \right)\]
이며, \(\small x \equiv ( {\vec{x}} ,t)\)는 시공간 좌표를 나타낸다. 두 함수 \(\small \psi (x _{i} )\), \(\small \phi (x _{f} )\)는 초기 시간과 최종 시간에서 분포 함수 \(\small p(x)\)가 \(\small p(x_i )\), \(\small p(x_f )\)와 일치하게끔 선택한다.
슈뢰딩거의 본래 논문에는 등장하지 않지만, 그가 풀었던 문제를 Kullback-Leibler (KL) 분산, 또는 상대 엔트로피 최소화 문제로 재해석할 수도 있다. 확산 방정식을 따르는 본래의 조건부 확률을 \(\small G ( {\vec{x _{f}}} ,t _{f} \vert {\vec{x _{i}}} ,t _{i} )\), 초기 시간과 마지막 시간에 만족해야 할 분포 함수를 따를 때 등장하는 조건부 확률을 \(\small G^\prime ( {\vec{x _{f}}} , t _{f} \vert {\vec{x _{i}}} ,t _{i} )\)이라고 하면 두 확률 함수는 일반적으로 일치할 수 없지만 초기 상태와 최종 상태를 만족한다는 조건 하에서 최대한 일치하게끔 조절할 수는 있다.
추가적으로 각 조건부 함수가 정규 분포 함수라고 하자. 다시 말하면 \(\small G ( {\vec{x _{f}}} ,t _{f} \vert {\vec{x _{i}}} ,t _{i} )\)와 \(\small G^\prime ( {\vec{x _{f}}} ,t _{f} \vert {\vec{x _{i}}} , t _{i} )\)을 결정하는 확률 미분 방정식, 또는 랑주뱅 방정식이 각각
\[\begin{align} &\frac{d {\vec{x}}}{dt} = {\vec{f}} ( {\vec{x,}} t) + \sqrt {D(t)} ~{\overrightarrow{\eta (t)}}\;,\\&\frac{d {\vec{x}’}}{dt} = {\vec{f}}’ ( {\vec{x,}} t)+ \sqrt {D(t)} ~ {\overrightarrow{\eta (t)}}\end{align} \]
으로 주어진다. 식에 등장하는 \(\small {\vec{f}} , {\vec{f}^\prime}\)는 ‘마찰력 벡터’로 해석하면 되고 \(\small {\overrightarrow{\eta (t)}}\)는 \(\small \left< \eta_i (t) \eta_j (t^\prime) \right> = \delta_{ij} \delta (t-t^\prime) \)의 관계식을 만족하는 백색 잡음(white noise)이다.
두 식 사이의 유일한 차이는 마찰력에 있다. 그 차이를 \(\small {\vec{f}^\prime} - {\vec{f}} = {\vec{u}}\)라고 정의하면 벡터장 \(\small {\vec{u}}\)는 마치 맥스웰의 숨은 악마처럼 확산이 자연스러운 확산 규칙 대신 어떤 의도된 방향으로 흘러가도록 제어하는 역할을 한다. 상대 엔트로피를 최소화하는 제어 함수 \(\small {\vec{u}}\)가 만족하는 편미분 방정식을 Hamilton-Jacobi-Bellman (HJB) 방정식이라고 부른다.
슈뢰딩거 다리 문제의 극단적인 형태로 역확산 과정을 들 수 있다. 순확산 과정을 통해 초기 시간 \(\small t=0\)에서 \(\small p _{i} ( {\vec{x}} ) = p( {\vec{x}} ,0)\)으로 주어진 확률 분포가 나중 시간 \(\small t=T\)에 \(\small p _{f} ( {\vec{x}} ) = p( {\vec{x}} ,T)\)로 변화했다고 하자. 그렇다면 거꾸로 \(\small p_f ( {\vec{x}} )\)에서 시작해 \(\small p_f ( {\vec{x}} )\)로 흘러가는 확산 과정을 만들어낼 수 있을까? 이 질문에 대한 답은 통계 물리학자가 아닌 앤더슨이란 제어 공학자가 찾아냈다2):
\[\frac{d\vec{x}}{dt} = - \left[ {\vec{f}} ( {\vec{x}}, t) - D(t) \nabla {\log}\; p(\vec{x} , t) \right] + \sqrt{D(t)} ~ {\overrightarrow{\eta (t)}} \]
순방향 확산의 랑주뱅 방정식과 비교하면 일단 마찰력의 방향이 바뀌었고, 추가적인 힘 \(\small D(t) \nabla {\log} p( {\vec{x}} ,t)\)이 더해졌다. 다시 말하면 제어 함수와 마찰력을
\[{\vec{u}} ( {\vec{x}} ,t)=D(t) \nabla {\log} ( p( {\vec{x}} ,t) )-2 {\vec{f}} ( {\vec{x}} ,t)\]\[{\vec{f}}^\prime = {\vec{f}} ( {\vec{x}} ,t)+ {\vec{u}} ( {\vec{x}} ,t)=D(t) \nabla { \log} ( p( {\vec{x}} ,t) )- {\vec{f}} ( {\vec{x}} ,t)\]
이렇게 설정하면 역확산 과정을 재현할 수 있다는 뜻이다.
얼핏 간단해 보이는 이 식에는 순방향 확률 분포 함수 \(\small p( {\vec{x}} ,t)\)가 무엇인지 알아야 역방향 확산 문제를 풀 수 있다는 조건이 숨어있다. 분포 함수가 만족하는 포커-플랑크(Fokker-Planck) 방정식
\[\frac{\partial p}{\partial t} + \nabla \cdot \left( p \left[ {\vec{f}} - \frac{1}{2} D \nabla {\log} (p) \right] \right) = 0\]
에도 속도장 \(\small {\vec{f}} - \frac{1}{2} D \nabla( {\log} p )\)에 분포 함수가 숨어 있으니 그리 놀라운 일은 아니다.
순방향 분포 함수 \(\small p ( {\vec{x}} , t)\)가 무엇인지 알고 싶으면 일단 초기 분포 \(\small p_i (\vec x )=p( {\vec{x}} ,0)\)가 무엇인지 알아야 한다. 두 함수 사이엔
\[p( {\vec{x}} ,t)= \int _{} ^{} {} d {\vec{x}_i } G( {\vec{x}} ,t \vert {\vec{x}_i } ,0)p _{i} ( {\vec{x}_i } )\]
관계가 성립하기 때문이다. 벡터 \(\small {\vec{x}} _{i} \)가 나타내는 게 입자의 위치가 아니라 어떤 정보인 경우를 생각해보자. 가령 20×20 픽셀로 만들어진 고양이 사진 한 장은 400차원짜리 공간에서 하나의 점으로 찍히고 400차원 벡터 \(\small {\vec{x}} _{i} \)로 쓸 수 있다. 이때 등장하는 \(\small p _{i} ( {\vec{x}_i } )\)는 이 세상에 존재하는 모든 고양이 사진의 집합 X가 만족하는 확률 분포 함수다. 우리에겐 이런 사전 지식이 주어지지 않았다.
확산 모델과 자진스키 등식
생성 인공 지능 모델로 각광 받고 있는 확산 모델에서는 초기 데이터 벡터 \(\small {\vec x}_0 \)에 가우스 잡음 \(\small {\vec{w}} _{s}\)을 단계적으로 더해준다. 구체적으로는3)
\[{\vec{x}} _{s} = \sqrt{1- \beta _{s}} ~ {\vec{x}} _{s-1} + \beta _{s} {\vec{w}} _{s}. ~ (0 < \beta_s \ll 1)\]
이란 점화식으로 표현할 수 있다. \(\small s=1, 2, \cdots , N-1\)로 증가하면서 본래 데이터 벡터 \(\small {\vec x}_0 \)는 아무런 정보가 없는 무작위 벡터 \(\small {\vec{x}} _{N} \sim \pi \)(\(\small \pi\): 표준 정규 분포 함수)에 수렴한다.
이번엔 앤더슨의 역확산 방정식에 따라 초기 벡터를 \(\small {\vec{y}} _{N} \sim \pi\)를 정규 분포로부터 생성한 뒤 역-랑주뱅 방정식을 이용해 \(\small {\vec{y}} _{N-1} , ~ {\vec y}_{N-2} , \cdots \)을 순차적으로 생성한다. 이런 과정을 N번 수행해서 생성한 \(\small {\vec y}_0\)라는 데이터는 본래 데이터 \(\small {\vec{x}} _{0}\)가 만족하는 확률 분포 \(\small p ( {\vec{x}} _{0} ) \)와 동일한 분포를 따를 것이고, \(\small {\vec y}_0\)는 본래 데이터와 매우 유사하지만 기존에 없던 새로운 데이터가 된다. 확산 기반 생성 인공 지능이 작동하는 원리다.
역확산 과정이 잘 진행되려면 점수 함수(score function) \(\small \nabla \log p( {\vec{x}} ,t)\)가 무엇인지 알아야 하는데 이 정보는 물론 주어지지 않았다. 점수 함수 대신 다른 함수 \(\small {\vec{s}} ( {\vec{x}} , t)\)를 이용해 역확산 과정을 진행했을 때 얻어지는 데이터 벡터 \(\small {\vec y}_0\)는 본래 데이터 집합이 만족하는 확률 함수 \(\small p( {\vec{y}} )\)가 아닌 다른 함수 \(\small p_s ( {\vec{y}} )\)의 지배를 받는다. 두 확률 함수의 차이는 KL 분산 \(\small D_{\mathrm{KL}} ( p ({\vec y} ) | p _{s} ( {\vec{y}} ) )\)으로 표현할 수 있는데, 이 분산 값은 다음 부등식을 만족한다는 걸 증명할 수 있다4):
\[D _{\mathrm{KL}} (p( {\vec{y}} )\vert p _{s} ( {\vec{y}} )) \leq\frac{1}{2} \int _{} ^{} {} dt\; d {\vec{x}} ~p( {\vec{x}} ,t)D(t) \vert\vert {\vec{s}} ( {\vec{x}} ,t)- \nabla \log p( {\vec{x}} ,t)\vert\vert _{2}^{2} \tag{1}\]
근사 함수 \(\small {\vec{s}} ( {\vec{x}} , t)\)가 참 점수 함수에 접근할수록 생성된 확률 분포 함수도 참 분포 함수에 접근한다는 의미다.
확산 모델을 처음으로 생성 인공 지능에 도입한 논문은 [5]였다. 논문의 저자들은 그들이 제안하는 원리가 비평형 현상에 중요한 통찰을 주었던 자진스키 등식(Jarzynski equality)에서 영감을 받았다고 강조한다. 등식의 표현은 다음과 같다6):
\[e^{- \Delta F / kT} = \left< e^{-W /kT} \right> .\]
식의 좌변에 등장하는 양은 두 평형 상태 A와 B에 해당하는 자유 에너지의 차이 \(\small \Delta F = F_B - F_A \)를 열에너지 \(\small kT\)로 나눈 값이다. 등식의 우변은 A라는 평형 상태에 해당하는 특정한 미시 상태 \(\small {\vec x}_A \)와 B라는 평형 상태에 해당하는 미시 상태 \(\small {\vec{x}} _{B}\)에 대한 에너지 차이 \(\small W = E ( {\vec x}_B ) - E( {\vec x}_A )\)에 대한 지수적 평균이다. \(\small \left< \cdots \right>\)는 모든 미시 상태 \(\small {\vec{x}} _{A}\)에 대해 볼츠만 인자 \(\small e^{- E ( {\vec{x}} _{A} )/ kT} \)를 곱한 평균을 말한다.
최초의 확산 모델은 그 뒤에 등장한 DDPM이나 DDIM 등 더 명확한 구조를 갖는 이론으로 대치되었고 그 과정에서 자진스키 등식에 대한 언급도 차츰 사라져갔다. 비평형 열역학의 깊은 통찰을 담은 이론이 기계 학습 이론에서 왜, 어떻게 중추적인 역할을 담당하는지 음미할 기회도 사라지는 듯했다. 확산 모델이 다체계 이론물리학자들의 탐구 대상으로 차분히 남아 있기엔 너무나 중요하고 쓸모 있는 이론이 되어버렸기 때문이기도 하다. 다행히 최근 확산 모델에 대한 비평형 통계물리학적 해석이 재등장하기 시작했다.
확산 모델에 대한 비평형 통계물리학적 이해
순방향 확산 과정에서 엔트로피는 증가한다.(엔트로피가 생성된다고도 한다.) 반면 역방향 확산은 엔트로피가 감소하는 과정이다. 맥스웰은 어떤 작은 악마가 있어 인위적으로 원자의 운동을 제어하지 않는 한 엔트로피가 줄어드는 일은 일어나지 않을 것이란 점을 간파했다. 역확산 과정에서 맥스웰의 작은 악마 역할을 하는 게 바로 점수 함수다.
앞서 소개한 식 (1)은 순확산 과정에서의 최초 확률 함수 \(\small p ( {\vec{x}} )\)와 역확산 과정에서의 최종 확률 \(\small p_s ( {\vec{x}} )\) 함수의 차이를 비교한 상대 엔트로피였는데, 이를 순확산과 역확산 과정 전체에 대한 상대 엔트로피로 확장할 수도 있다. 일단 순확산과 역확산 과정의 결합 확률을 각각
\[p _{f} ( {\vec{x}_f} (t))=p( {\vec{x}} _{0} ) \prod _{i=1} ^{N} p( {\vec{x}} _{i} \vert {\vec{x}} _{i-1} )\]\[p _{r} ( {\vec{x}}_r (t))=p( {\vec{x}} _{N} ) \prod _{i=1} ^{N} p( {\vec{x}} _{i-1} \vert {\vec{x}} _{i} )\]
으로 정의한다. 상대 엔트로피는
\[D (p_f | p_i ) \equiv \int _{} ^{} {} D {\vec{x}} _{f} (t)~p _{f} ( {\vec{x}} _{f} (t))\log \left( \frac{p _{f} ( {\vec{x}} _{f} (t))}{p _{r} ( {\vec{x}} _{r} (t))} \right)\]
으로 정의한다.7) 같은 경로 \(\small {\vec x}(t)\)를 한 번은 순방향 \(\small {\vec{x}}_f (t)\), 한 번은 역방향 \(\small {\vec{x}} _{r} (t)\)으로 이동할 때의 확률 차이를 모든 가능한 경로에 대해 파인만 길적분한 꼴로 주어진다. 잘 알려진 비평형 통계역학의 증명에 따르면 이 양은 A에서 B로 가는 과정에서 생성된 엔트로피와 같다6)7):
\[D(p _{f} \vert p _{i} ) \equiv \Delta S . \tag{2}\]
비평형 통계역학의 맥락에서 증명된 이 관계식은 확산 생성 모델에서도 의미를 갖는다. 순방향 확산 경로를 최대한 재생해서 그 경로를 따라 역확산하는 게 확산 모델의 성공 비결이니까 말이다.
데이터 공간은 실제 입자가 존재하는 물리적 공간과는 다르고, 확산 과정도 물리학적 법칙을 따른다기보다는 공학적 관점에서 인위적으로 설계된 과정을 따른다. 무엇보다 ‘온도’란 개념이 데이터 공간의 확산 문제에는 없다. 그럼에도 불구하고 자유 에너지를 데이터 공간에서 잘 정의하면 등식 (2)와 유사한 관계식을 증명할 수 있지 않을까?
실시간 엔트로피를 \(\small S(t) = - \int d {\vec{x}}\; p({\vec{x}}, t) \log p({\vec x}, t)\)로 정의하면 그 변화율은 포커-플랑크 방정식으로부터 다음 형태로 주어진다는 걸 증명할 수 있다:
\[\frac{dS(t)}{dt} =\frac{1}{2D(t)} \int _{} ^{} {} d {\vec{x}} \left[ 2 {\vec{f}} ( {\vec{x}} ,t)-D(t) \nabla \log p( {\vec{x}} ,t) \right] ^{2} p( {\vec{x}} ,t)\]
최근 연구에서 확산 모델의 확률 분포 함수 \(\small p({\vec x} ,t)\)를 이용해 정의한 실시간 엔트로피를 시간에 대해 적분한 양 \(\small \int _{0} ^{T} {} dt \frac{dS}{dt} =\Delta S\)이 앞서 언급한 등식 (2)를 만족한다는 점을 보였다.8) 비평형 통계역학과 확산 인공 지능 이론의 접점을 보인 사건이라고 할 수 있다.
아직 해결해야 할 고리가 있다. 확산 과정에서 엔트로피는 증가하고 정보는 소실된다. 그럼에도 불구하고 역확산 과정에서는 본래 정보를 거의 손실 없이 재생한다. 사라진 정보가 어딘가 저장되어 있다가 재생 과정에서 다시 흘러들어온다는 뜻이다. 확산 모델의 구조로 보았을 때 사라진 정보는 점수 함수 속에 저장되어 있고, 점수 함수가 곧 맥스웰의 악마 역할을 할 것이란 추측을 할 수 있다. 사라진 정보의 양(어딘가에 저장된 정보의 양)을 정량적으로 나타내는 엔트로피에 대한 표현도 있을 것이다. 최근 논문은 이 양을 뉴럴 엔트로피(neural entropy)라고 명명하고 그 정의를 내린 바 있는데,4) 아직 필자가 그 내용을 명확히 이해하지 못해 여기서 구체적으로 소개하지는 않는다. 명민한 독자가 그 내용을 견고히 이해하고 확장할 수 있을 것이다.
맺음말
필자는 오랫동안 양자 물질의 물성을 이론적으로 연구해 왔다. 최근의 양자 다체계 연구 동향을 한마디로 정리하라면 양자 정보 이론과 양자 다체계 이론이 어우러진 새로운 접근법을 모색하는 시대라고 하겠다. 한편, 이 글에서 서술한 확산 모델의 사례처럼 고전적 정보 이론과 고전적 다체계 이론, 즉 통계 물리 이론이 인공 지능이란 분야에서 서로 만나 접점을 찾아가고 있는 모양새다. 자진스키 등식이 대변하는 비평형 통계 이론을 공학적으로 설계된 확산 모델의 작동 방식에 적용할 수 있다는 최근 연구 결과는 인공 지능 공학과 인공 지능 과학 사이의 간극이 크지 않다는 점을 시사한다. 다체계 이론 물리학이 세상에 참여해서 어떤 일을 할 수 있는가 고민하는 물리학자가 깊이 들여다볼 만한 분야라고 생각한다.
후기
이 글을 작성하는 데 고려대 임성빈 교수, 서울대 조정효 교수의 도움을 받았습니다.
- 각주
- 1)E. Schrodinger, On the reversal of the laws of nature, original 1931 article translated by R. Chetrite, P. Muratore-Ginanneschi, K. Schwieger and published in Eur. J. Phys. H 46, 28 (2021).
- 2)B. D. Anderson, Reverse-time diffusion equation models, Stochastic Processes and their Applications 12, 313 (1982).
- 3)C. Luo, Understanding diffusion models: a unified perspective, arXiv:2208.11970 (2022).
- 4)A. Premkumar, Neural entropy, arXiv:2409.03819 (2024).
- 5)J. Sohl-Dickstein, E. A. Weiss, N. Maheswaranathan and S. Ganguli, Deep unsupervised learning using nonequilibrium thermodynamics, in International conference on machine learning (PMLR, 2015), pp. 2256-2265.
- 6)C. Jarzynski, Rare events and the convergence of exponentially averaged work values, Phys. Rev. E 73, 046105 (2006).
- 7)J. M. R. Parrondo, C. van den Broeck and R. Kawai, Entropy production and the arrow of time, New J. Phys. 11, 073008 (2009).
- 8)K. Ikeda, T. Uda, D. Okanohara and S. Ito, Speed-accuracy trade-off for the diffusion models: wisdom from nonequilibrium thermodynamics and optimal transport, arXiv:2407.04497 (2024).