본문바로가기


지난호





|

특집

2024 노벨물리학상

신경망과 양자다체계산

작성자 : 김동희 ㅣ 등록일 : 2024-12-20 ㅣ 조회수 : 724 ㅣ DOI : 10.3938/PhiT.33.036

저자약력

김동희 교수는 2006년 KAIST에서 복잡계 통계물리 연구로 박사 학위를 받았다. 학위 취득 후 미국 노스웨스턴대학과 핀란드 알토대학에서 박사 후 연구원을 거쳐, 2013년부터 GIST 물리⸱광과학과에서 일하고 있다. 현재 주요 관심 분야는 양자 정보 관점에서의 양자 상전이 문제와 인공신경망을 이용한 임계점 근처의 양자 다체 계산 문제이다. (dongheekim@gist.ac.kr)

Quantum Many-body Calculations Using Artificial Neural Networks

Dong-Hee KIM

Recent rapid development in the neural network architecture for machine learning and AI has been inspiring a new tool for fundamental physics research that is not even data-driven. In this article, I review one of such examples, called neural-network quantum states. Basic concepts, some of promising applications, and recent progresses for performance and wider applicability are briefly introduced, highlighting its potential as a highly competitive tool for quantum many-body simulations.

들어가며

지난 10여 년간 인공신경망 기반 기계학습 기법의 눈부신 발전은 마케팅 분야나 산업적인 응용 가능성을 넘어 물리학을 포함한 기초과학 및 공학의 많은 분야의 연구 기법 발전에 실제적 영향을 끼치고 있다. 특히, 2024년 노벨 물리학상이 생성모형의 인공신경망과 기계학습 이론의 발전에 중대한 기여를 한 홉필드 교수와 힌튼 교수에게 수여된 사실은 인공신경망과 AI 기술에 대한 물리학자들의 기대를 반영한다고도 할 수 있을 것 같다.

흔히 기계학습이라고 하면 데이터 기반의 신경망 학습, 베이지안 추론, 그리고 이를 이용해 전문가의 작업이나 경험적 모형의 개입 없이 작동하는 자동 분류 등을 떠올릴 수 있다. 이러한 데이터 분석 도구는 오류가 다소 있더라도 엄청난 양의 데이터를 처리해야 하는 분석 작업에 유용함은 당연하다. 하지만, 최근에는 이러한 일반적 용도를 넘어 수치적 엄밀함이 필요한 물리학 이론 계산 분야에서도 주목할 만한 제안이 나오기 시작했는데, 인공신경망 기법과 물리학 계산법의 직접적인 결합을 통해 만들어진 새로운 종류의 양자 다체 시뮬레이션 도구를 만들 수 있다는 것이다.1)

본 특집호 지면을 빌어 필자는 물리학의 관련 연구 동향 중 인공신경망 기반의 생성 모형으로써 양자 파동함수를 기술하는 방법론과 이를 이용한 양자 다체 시뮬레이션 기법의 개요를 소개하고 최근의 발전 양상과 전망을 간략히 전하고자 한다.

양자 다체 시뮬레이션의 어려움

정확한 해법이 알려진 극소수의 모형계를 제외한다면, 일반적으로 상호작용하는 많은 입자의 양자상태를 정확히 구하는 것은 아무리 강력한 컴퓨터를 사용한다 해도 매우 어려운 일이다. 해밀토니안의 고유치 문제에서 머신-정밀도의 수치적으로 정확한 해를 얻을 수 있는 범용의 비-확률적 계산법은 행렬의 대각화가 유일한데, 양자계 다체문제의 경우 해밀토니안 행렬의 크기가 계의 크기에 대해 지수함수적으로 증가한다. 가능한 모든 대칭성을 고려하고 초병렬 컴퓨팅을 동원한 하이젠베르크 스핀-1/2 모형의 바닥 상태 계산에서 필자가 아는 한 현재까지의 가장 큰 계의 스핀은 48개에 불과하다.

문제는 계의 크기가 물질의 상태를 연구하는 데 매우 중요한 역할을 하는 경우가 많다는 것이다. 이를테면 자성의 긴-거리 질서의 발현 혹은 불안정성이나 물질의 임계 상태 등 거리 척도가 매우 큰 물리 현상을 올바르게 이해하려면 계의 크기를 점점 크게 하는 작업이 반드시 필요하다. 대각화 방법으로 이러한 작업을 하는 데는 분명한 한계가 있고, 이를 극복하기 위해 확률적 샘플링을 이용하는 양자 몬테카를로 방법, 변분 원리를 이용하는 텐서 네트워크 방법 등 여러 방법론이 개발되어 양자 다체 계산에 이용되고 있다.

위에 언급한 모든 방법론은 저마다의 강점이 있지만 또 각각의 방법론마다 해결하기 어려운 단점도 존재한다. 양자 몬테카를로 방법은 적용 계와 구현 방법에 따라 서로 다른 체계가 존재하여 문제가 나타나는 양상이 다르지만, 그 근원에는 페르미온 대칭성이나 스핀의 쩔쩔맴(frustration)이 초래하는 악명높은 음의 확률 문제가 있고 이는 일반적으로 회피하기 매우 어려운 문제이다. 텐서 네트워크 방법에서 가장 많이 쓰이는 텐서-기차 혹은 행렬-곱-상태(matrix product state)표현은 양자얽힘이 계의 크기에 따라 증가하는 경우인 상전이 임계점 기술이나 이차원 양자계 적용에 약점을 보인다.

어찌 보면 당연하게도 고온 초전도나 양자 스핀 액체를 포함한 강상관계의 어려운 문제는 여러 계산 방법론의 단점이 겹치는 영역에 있다. 언젠가 미래에 양자컴퓨터가 이런 어려운 문제를 정확히 풀어 줄 수 있으리라는 희망적인 전망이 있기는 하지만, 필자가 생각하기에 현시점에서 이상적인 접근은 문제의 서로 다른 면을 볼 수 있는 다양한 방법론을 동원해 조각을 모아 전체적 그림을 만들어 가는 것이라고 본다. 이러한 맥락에서, 그리고 후술할 특징으로 인해, 인공신경망 기반의 생성모형에서 파생된 새로운 도구의 발명은 단순히 양자 다체 계산법의 바구니에 하나를 더하는 것을 넘어서 강상관계 연구에 새로운 시각을 제공할 잠재력이 있다.

인공신경망을 이용한 양자 파동함수 표현

생성모형은 인공신경망으로 하여금 데이터의 확률분포함수를 학습하게 하고 확률분포함수에 따라 새로운 데이터를 만들어내도록 하는 것이다. 생성모형의 효시는 홉필드 교수가 제안한 all-to-all 뉴런 연결망이다. 홉필드 네트워크로부터 시작하여, 볼츠만 머신, 제한 볼츠만 머신(Restricted Boltzmann Machine, RBM)에 이르면 비로소 실용적이 되는데 여기까지의 생성모형의 발전사와 이 과정에서 힌튼 교수의 결정적 기여에 대해서는 서울대 조정효 교수가 HORIZON에 기고한 “볼츠만 머신: 생성모형의 원리”2)에 자세히 소개되어 있으니 꼭 읽어보기를 바란다.

생성모형으로써 양자 다체계의 파동함수를 표현할 수 있다는 아이디어는 2017년 당시 스위스 취리히 연방공과대학에 있던 Carleo와 Troyer 교수가 Science에 논문3)으로 발표하였다. 그들이 제안한 인공신경망을 이용한 양자 상태의 표현법은 다음과 같다. 기저 벡터의 집합 \(\small \{ \left\vert  {\pmb{s}} \equiv  (s _{1} ,s _{2} , \cdots  ,s _{N} )\right> \}\)이 주어지면 계의 임의의 양자 상태를 \(\small \left\vert  \Psi  \right> = \sum _{{\pmb{s}}}  \psi  ( {\pmb{s}}) \left\vert  {\pmb{s}} \right>\)와 같이 전개할 수 있는데, 그 계수가 되는 파동함수 \(\small \psi ( {\pmb{s}})\)를 RBM 신경망으로 근사적으로 표현하자는 것이다.

Fig. 1. Examples of RBM wave function applications. (a) Ground state search using the variational Monte Carlo method. The energy is measured using Monte Carlo sampling of the RBM wave function, and the neural parameters are iteratively updated to minimize the ground-state energy. (2) Quantum state tomography for a pure state. The RBM learns the probability estimates obtained from projective measurements on many identical copies of a quantum system.
Fig. 1. Examples of RBM wave function applications. (a) Ground state search using the variational Monte Carlo method. The energy is measured using Monte Carlo sampling of the RBM wave function, and the neural parameters are iteratively updated to minimize the ground-state energy. (b) Quantum state tomography for a pure state. The RBM learns the probability estimates obtained from projective measurements on many identical copies of a quantum system.

RBM 구조에 대해 간략히 설명하면 그림 1(a)와 같다. 입력값 \(\small {\pmb{s}} = (s _{1} ,s _{2} , \cdots ,s _{N} )\)를 보이는 층 뉴런(\(\small {\pmb{v}} \leftarrow {\pmb{s}}\))에 입력했을 때, 숨김 층 뉴런(\(\small \pmb{h}\))을 연결하는 가중치 행렬 \(\small \pmb{W}\)와 편향 벡터 \(\small \pmb{a}\), \(\small \pmb{b}\)로써 입력에 대응하는 에너지 값을 다음과 같이 정의하고,

\[E(v,h)=- \sum _{i} ^{} a _{i} v _{i} - \sum _{j} ^{} b _{j} h _{j} - \sum _{ij} ^{} v _{i} W _{ij} h _{j} , \]

보이는 층 뉴런과 숨김 층 뉴런의 상태 변수 \(\small ({\pmb{v}}, {\pmb{h}}) \)의 결합 확률을 볼츠만 분포 \(\small P( {\pmb{v}}, {\pmb{h}} ) \propto e^{-E(\pmb{v}, \pmb{h})}\)를 따르도록 정한다. 숨김 층의 이진 변수를 적분하여 보이는 층 변수의 주변 확률을 구하면,

\[P( {\pmb{v}} ) \propto \exp \left[ \left( \sum _{i} ^{} a _{i} v _{i} + \sum _{j} ^{} \ln(1+\exp[b _{j} + \sum _{i} ^{} v _{i} W _{ij} ]\right) \right]\]

이 된다. 즉, 입력값 벡터의 데이터가 어떤 특정 분포를 따른다고 할 때, RBM의 매개변수 \(\small (\pmb{W}, \pmb{a}, \pmb{b})\)를 조정하여 이 분포를 근사적으로 표현할 수 있다.

이는 우리가 원래 구하고자 하는 양자 파동함수를 \(\small \psi ( {\pmb{s}} )= \sqrt{P( {\pmb{v}} \leftarrow  {\pmb{s}} )}\)으로 근사하여 임의의 양자상태 \(\small \left\vert \Psi \right> = \sum_{\pmb s} \psi (\pmb{s}) \left\vert \pmb{s} \right>\)를 RBM의 매개변수 (\(\small\pmb{W}, \pmb{a}, \pmb{b}\))의 함수로써 표현할 수 있다는 의미이다. 이러한 인공신경망 파동함수 표현의 실용성은 universal approximation theorem에 기반하는데, RBM 모형에 대해서 적용하면 숨김 층의 뉴런 개수가 충분히 많을 때 어떠한 형태의 실변수 함수도 근사 가능하다는 것이다. 해밀토니안 행렬에서 영이 아닌 모든 비-대각 요소가 음수가 되도록 기저를 선택할 수 있는 경우 바닥 상태의 양자 파동함수는 양의 실수로 표현할 수 있어 제곱근이 있어도 문제가 없다. 만약 복소수 파동함수 \(\small \psi = \left\vert  \psi  \right\vert  e ^{i \theta }\)를 다루어야 하면, 매개변수를 복소수로 하거나 크기와 위상을 각각 인공신경망 출력으로 구현하여 해결할 수 있다.

RBM 파동함수 표현이 나온 이후 여러 응용 계산과 다른 양자다체 시뮬레이션 방법과의 비교, RBM을 넘어선 인공신경망 표현법 자체의 발전과 더욱 효율적인 수치 계산 방법의 제안 등 다양한 방향으로 발전이 이루어져 왔는데, 아래에 두 가지 대표적 응용을 소개하겠다.

변분 몬테카를로 방법과의 결합

임의의 양자 상태를 인공신경망 매개변수의 함수로써 표현했다면, 변분법을 사용하여 바닥 상태를 계산해 볼 수 있다. 2017년 논문2)에서 Carleo와 Troyer는 인공신경망 파동함수의 정확성을 1차원과 2차원 스핀 모형에서 바닥 상태 계산과 양자 동역학 계산을 통해 시연한 바 있다. 양자역학 교과서에서 배웠듯이 우리가 양자 상태 \(\small \left\vert \Psi \right>\)을 자유롭게 선택할 수 있다면 바닥 상태 에너지는

\[E _{0} = \mathrm{min}_{\Psi } \left[ \frac{ \left< \Psi \right\vert H \left\vert {\Psi} \right>}{\left< \Psi \vert \Psi \right>} \right]\]

와 같이 우변의 해밀토니안 측정값을 최소화하는 \(\small \left\vert \Psi \right\rangle\)를 찾음으로써 계산해낼 수 있고 이때 \(\small \left\vert \Psi \right\rangle\)가 바닥 상태가 된다. 인공신경망(위에서는 RBM)을 사용하여 \(\small \left\vert \Psi _{\pmb\theta} \right> = \sum _{{\pmb{s}}} ^{} \sqrt{P( {\pmb{s}} ; {\pmb{\theta }} )} \left\vert {\pmb{s}} \right>\)와 같이 양자 파동함수를 신경망 매개변수 \(\small \pmb\theta\)의 함수로 표현하였으므로 \(\small\pmb\theta\)에 대한 최적화 문제를 수치적으로 풀어서 바닥 상태를 근사적으로 구할 수 있다.

최적화 과정은 인공신경망의 입장에서는 데이터를 스스로 만들어 학습하는 형태이므로 self-learning이라고 부르기도 하는데, 이 과정은 표준적인 변분 몬테카를로 방법의 프로토콜과 다른 점은 없다. 확률 분포 \(\small P( {\pmb{s}} ; {\pmb{\theta }} )\)에 따라 기저 \(\small \pmb s\)를 샘플링하여 \(\small \left< \Psi  _{\pmb\theta } \vert  H \vert  \Psi_{\pmb\theta}  \right>\)를 측정하고 이를 변분-최적화하기 위해 stochastic reconfiguration 혹은 gradient descent 방법으로 \(\small\pmb\theta\)를 업데이트한다. 그러나, 기존의 변분 몬테카를로 방법으로부터 중대한 발전은 인공신경망을 범용의 시도(trial) 파동함수로 쓰는 데에 있다.

변분법의 태생적 단점은 정확도가 파동함수 표현 범위의 한계에 의존한다는 점이다. 만약 정확한 바닥 상태가 파동함수의 표현 범위와 너무 동떨어져 있다면 변분법을 통해 얻은 근사적 바닥 상태는 매우 부정확할 것이다. 인공신경망의 universal approximation theorem은 비록 이상적으로 큰 신경망을 가정하기는 하지만, 신경망의 함수 표현 범위가 아주 넓음을 말해준다. 특히, 텐서 네트워크에서 matrix product state는 신경망 파동함수의 표현 범위 안에 있고 volume-law 양자얽힘이 발생하는 경우도 신경망이 표현할 수 있다는 연구 결과도 있다.4)5) 이는 변분법의 정확도를 높이는 매우 중요한 요소이고, 신경망 파동함수와 변분법의 결합이 양자 몬테카를로나 텐서 네트워크 방법과 경쟁할 수 있는 정밀도를 가지면서 보다 넓은 범위의 계로 확장할 수 있음을 시사한다.

양자상태의 재구성

두 번째로 소개하고자 하는 응용은 양자상태 토모그래피(Quantum State Tomography, QST)이다. 양자 소자나 회로에서 어떤 양자상태를 구현했다고 하였을 때 그 양자상태가 과연 계획한 대로 구현되었는지 알아보려면 측정을 통해 밀도행렬을 정량적으로 재구성해 보는 것이 필요하다. 하지만, 양자상태의 수많은 복사본을 만들고 각각의 정밀한 측정을 통해 기저에 대한 정확한 확률 분포를 얻는다는 매우 이상적인 실험 상황을 가정하더라도, 수학적으로 \(\small d\)차원의 밀도행렬을 결정하는 문제는 \(\small d ^{2} -1\)개의 미지수를 구하는 문제라서, 큐비트의 개수가 늘어날수록 복잡도는 지수함수적으로 증가하는 문제이다. 당연히도 실험 데이터에는 노이즈가 있고 이는 QST에 큰 난점이다.

만약 정확한 확률 분포가 있다면 측정과 밀도행렬 표현의 선형적 관계를 이용해 역행렬을 구하는 방법으로 full QST를 하는 linear inversion 방법이 있으나, 노이즈를 포함한 실험 데이터로는 밀도행렬이 만족해야 하는 positivity 조건이 보장되지 않는다. 이 때문에 많은 경우 밀도행렬의 구속 조건을 만족하도록 하는 Maximum Likelihood Estimation (MLE)가 고려되지만, 많은 측정을 요구하고 수렴이 느린 단점 때문에 많은 수의 큐비트 계에 대응하기 위한 개선 방안이 활발히 연구되고 있다.

인공신경망 파동함수 표현의 등장으로부터 얼마 후 2018년 Nature Physics 논문에서6) RBM 파동함수 표현을 이용한 QST의 새로운 틀이 제안되었다. 그림 1(b)에서처럼 순수상태(pure state)에 대한 큐비트계에 대한 토모그래피는 RBM 파동함수 표현을 그대로 이용할 수 있다. 로컬 파울리 연산자로 이루어진 n-큐비트 기저에 대한 측정이 이루어지고 측정값의 확률 분포 \(\small Q( {\pmb s}) \)가 주어졌다고 할 때 이 확률 분포 데이터를 RBM이 다시 만들어낼 수 있도록, 즉 RBM의 \(\small P( {\pmb{s}} ; {\pmb{\theta }} )\)가 데이터 \(\small Q( {\pmb s}  )\)와 최대한 가깝도록, RBM의 파라미터 \(\small \pmb\theta\)를 결정하는 문제를 풀면 되는 것이다. 실험값과 RBM, 두 확률 분포 사이의 거리를 Kullback-Leibler divergence로 정의하면,

\[D _{KL} (Q \vert\vert P) = \sum _{{\pmb{s}}} Q( {\pmb{s}} ) \ln \frac{Q( {\pmb s} )}{P( {\pmb{s}; \pmb{\theta}} )}\]

와 같이 되고, 이를 gradient descent로써 최소화하여 순수상태에 대한 밀도행렬 \(\small \rho = \left\vert \Psi _{{\pmb{\theta }}} \right>\left< \Psi _{{\pmb{\theta }}} \right\vert \)을 구한다.

순수상태에 대해서는 RBM 인공신경망 파동함수 표현에 기반한 QST가 계의 크기가 증가해도 상대적으로 적은 측정 횟수에 대해 잘 작동함이 시연되었는데, 혼합상태(mixed state)에 대해서는 문제의 난도가 훨씬 높아 관련 연구가 여전히 활발하다. 초기에 제안된 RBM 기반의 혼합상태 QST는 매우 작은 계에서만 시연되었으나 최근에는 거대언어모형에서 파생된 생성모형을 사용한 개선이 제안되었다. 또한, 최근에 QST 분야에서 혁신적 방법으로 떠오른 classical shadow를 이용한 토모그래피7)를 활용하여 준비 또는 후처리에 인공신경망 양자상태 표현을 사용한 개선 방법에 관한 연구도 발표되고 있다.

신경망 양자상태 표현의 발전과 도전

지금까지 RBM 기반의 신경망 파동함수에 관한 초창기 아이디어를 중심으로 서술했다. 2017년 신경망 파동함수 기반 양자 시뮬레이션의 개념이 등장한 후 다양한 발전이 이루어지고 그에 따라 여러 연구 주제들이 제시되었는데, 필자의 생각으로는 다음 두 방향이 대표적일 것 같다.

첫 번째는 생성모형 아키텍처 자체의 발전이다. 요즘의 화두는 역시 ChatGPT나 그와 유사한 인공지능 서비스일 텐데, 이러한 언어모형의 발전에 발맞춰 그 뼈대를 이루는 요소들이 인공신경망 양자상태 표현에 이식되고 있다. RBM의 작동이 시연되자마자 다양한 구조의 신경망이 양자 시뮬레이션을 위해 연구되었다. 제일 간단한 구조의 피드-포워드 신경망, 딥-볼츠만 머신, Convolutional Neural Network (CNN) 등이 있는데, 이중 CNN은 원래 이미지를 다루던 그 구조 자체의 특성으로 인해 이차원 격자의 대칭성을 고려하기 용이하고, volume-law 양자얽힘을 기술하는데 RBM에 비해 필요한 파라미터 수에서 더 나은 스케일링 특성을 보인다.

현재의 기계번역에서 언어모형의 발전 역사를 보면 단어의 순서를 이용하기 위한 Recurrent Neural Network (RNN)을 시작으로 “attention”의 역할이 중심이 되는 Transformer로 바뀌고 여기서 발전하여 우리가 익히 들어본 GPT가 등장하게 된다. 이런 과정은 인공신경망 양자상태 표현의 발전에도 많은 영향을 주어, RBM과 CNN 이후에 RNN을 이용한 자기회기(autoregressive) 표현이 발표되었고,8)9) 최근에는 Transformer 양자 파동함수 표현도 등장하였다.10)11)

특히 RNN의 autoregressive 특성은 그 이전의 생성모형과는 차별되는 점을 보이는데, RNN은 기저의 확률을

\[P( {\pmb{s}} ) = P(s _{1} )P(s _{2} \vert s _{1} ) \cdots P(s _{N} \vert s _{N-1} , \ldots , s _{2} , s _{1} )\]

와 같이 조건부 확률의 곱으로 표현한다. 이는 RBM에 비해 분명한 장점이다. RBM에서 확률은 볼츠만 형태를 따르지만 정규화된(normalized) 확률 표현을 얻을 수 없으므로 기저 \(\small \pmb s\)를 샘플링하기 위해 Markov-chain 몬테카를로 방법을 사용한다. 이러한 몬테카를로 샘플링 과정에는 autocorrelation time이 존재하고 이는 계의 크기에 따라 일반적으로 커지고, 특히 임계영역에서 비효율이 심하다. 그러나, autoregressive 구조에서는 모든 확률 과정이 정규화되어 있고 Gibbs 샘플링 방법으로써 조건부 확률을 다루므로 autocorrelation time에 의한 문제가 없다.

한 가지 유의할 점은 바닥 상태를 구하기 위한 변분법에서 파동함수의 표현력이 매우 중요하지만 실제 결과는 최적화 과정에도 매우 큰 영향을 받는다는 점이다. 이를테면, RBM 파동함수를 다룰 때 natural gradient를 사용하는 stochastic reconfiguration 방법으로 최적화를 할 때가, 단순히 gradient descent보다 훨씬 더 좋은 결과를 준다는 것이다. 이는 수많은 로컬 극소점을 지나 글로벌 최소점을 찾는 문제에서 공통적이다. 그러나, RBM에서 잘 작동하는 stochastic reconfiguration 방법이 모든 인공신경망 표현에 적합한 것은 아닐뿐더러, 그 자체로도 계산량이 상당한 방법이라는 것이 생각해 봐야 할 문제이다. 또한 더 정밀한 최적화를 위해 계의 대칭성을 파동함수 표현에 넣는 것이 바람직한데, 이 또한 생성모형 아키텍처에 따라 매우 복잡할 수 있는 문제이다. 따라서 최적화 방법과 대칭성도 생성모형의 파동함수 표현법 발전과 함께 연구되어야 하는 중요한 주제들이다.

두 번째는 페르미온 문제이다. 앞서 소개한 RBM 파동함수는 통상 그 기저를 (0, 1)로 한다. 이는 하이젠베르크 스핀 모형 시뮬레이션에는 적합하지만, 페르미온 계를 다루려면 추가적인 고려가 필요하다. 파동함수 표현을 그대로 두고 페르미온 계를 시뮬레이션하려면 가장 단순한 방법은 해밀토니안이 second-quantization 형태이거나 그렇게 써지도록 바꾼 다음 Jordan-Wigner transformation을 이용해서 페르미온 연산자를 파울리 스핀 연산자로 바꾸어 다시 쓰는 것이다. 이렇게 하였을 때 장점은 페르미온의 대칭성을 추가로 고려할 필요가 없고 따라서 sign problem을 걱정하지 않을 수 있다. 하지만 단점은 이러한 변환은 파울리 스핀 연산자 스트링을 생성하게 되므로 매우 비-국소적이 될 수 있고 이러한 비-국소성이 초래하는 효율성 저하에 대해서는 많은 논란이 있다.

다른 방법은 페르미온 대칭성을 파동함수에 직접 넣어 주는 것이다. 이때, 인공신경망 파동함수 표현은 대부분 Slater-Jastrow 표현 혹은 유사한 형태를 따른다. 파동함수를 페르미온의 대칭성을 담당하는 Slater determinant \(\small \psi _{0}\)와 correlation을 기술하는 Jastrow factor \(\small J\)의 곱으로 쓰게 되면,

\[\left\vert \Psi \right> = \sum _{c} \psi_{0} (c)J(c) \left\vert c\right>\]

와 같이 표현할 수 있다. 이 식에서 어느 부분을 어떻게 인공신경망으로 표현할 것인지에 따라 많은 제안이 나온다. 예를 들어 양자화학에서 first-quantization 형태의 분자 시뮬레이션을 위해 만들어진 DeepMind의 FermiNet12)은 모든 부분을 인공신경망으로 구성했고, PauliNet13)에서는 Slater determiniant의 backflow 보정 부분과 Jastrow factor를 신경망으로 표현했다.

격자 위의 페르미-허바드 모형에 대해서도 많은 제안이 이루어졌는데, 초기의 제안은 Jastrow factor만 RBM 등의 신경망으로 표현하는 것이었다. 최근에는 이를 넘어 Slater determinant 부분을 신경망 표현을 이용해서 보정하는 neural network backflow, hidden fermion determinate state 등 여러 제안이 속속 발표되고 있는데, 이러한 흐름에 대해서는 최근 논문14)에 잘 요약되어 있다. 그러나, 수치적 결과들을 보게 되면, 아직까지는 스핀 모형에서 보여준 정확도에 비해 페르미-허바드 모형에 대해서는 인공신경망 파동함수 표현의 정확도가 아키텍처가 훨씬 복잡함에도 상대적으로 낮은 편이다. 인공신경망 파동함수 표현법에서 페르미온 대칭성 문제를 어떻게 다룰 것이냐에 대해서는 아직도 여전히 도전적인 부분이 많이 남아 있다.

맺음말

지금까지 생성모형을 이용한 양자 다체 계산법에 대한 초기 제안을 중심으로 개략적인 아이디어와 응용, 최근의 발전 방향에 대해 간략히 기술하였다. 생성모형의 넓은 표현 범위로써 양자파동함수의 템플릿을 만들고, 이를 변분법의 바닥 상태계산과 양자 토모그래피에 응용하는 예를 소개하였다. 초기의 RBM 모형을 넘어 GPT로 대표되는 언어모형에서 유래한 신경망 모형을 사용한 최근의 발전을 소개하였고, 마지막으로 페르미온 문제에 대한 접근법에 대해 언급하였다.

이 글에서는 주로 바닥 상태 계산을 예로 많이 들고 있으나 실제 응용 제안의 범위는 훨씬 넓다. 이미 2017년 Carleo와 Troyer의 논문3)에서 시간-의존 변분법을 사용한 양자동역학 시뮬레이션도 신경망 파동함수로 가능함을 시연한 바 있고, 들뜸상태 계산, 유한 온도 밀도행렬 계산, 열린 양자계에서 Lindblad 방정식의 수치해 계산 등 이 글에서 언급하지 않은 예들이 많다. 각각에 대한 자세한 내용에 대해서는 최근에 나온 리뷰 논문15)과 참고문헌을 보기 바란다.

인공신경망 파동함수 표현과 이를 이용한 양자 다체 계산법은 아직 성숙기에 들어간 체계가 아니다. 그 때문에 제각각의 많은 제안이 서로 다른 관점에서 이루어지고 있기도 하고, 물리학 체계의 바깥에서 진행되는 거대언어모형 아키텍처의 발전에 영향받는 바가 크기도 하다. 그래서 여러 신경망 아키텍처를 제안하고 시연하는 연구가 여전히 많이 이루어지고 있는 아직은 한창 성장 중인 분야이지만, 지난 8년간 시연을 통해 보여준 정밀도의 수준과 현재의 발전 속도로 미루어 본다면, 가까운 미래에 많은 부분에서 기존의 양자 다체 계산 방법론과 경쟁할 수도 있을 것으로 기대한다.

각주
1)J. Carrasquilla and G. Torlai, How to use neural networks to investigate quantum many-body physics, PRX Quantum 2, 040201 (2021).
2)조정효, “볼츠만 머신: 생성모형의 원리” in Horizon (2021), https://horizon.kias.re.kr/18001/.
3)G. Carleo and M. Troyer, Solving the quantum many-body problem with artificial neural neworks, Science 355, 602 (2017).
4)D.-L. Deng, X. Li and S. Das Sarma, Quantum entanglement in neural network states, Phys. Rev. X 7, 021021 (2017).
5)O. Sharir, A. Shashua and G. Carleo, Neural tensor contractions and the expressive power of deep neural quantum sates, Phys. Rev. B 106, 205136 (2022).
6)G. Torlai, G. Mazzola, J. Carrasquilla, M. Troyer, R. Melko and G. Carleo, Neural-network quantum state tomography, Nature Phys. 14, 447 (2018).
7)H. Y. Huang, R. Kueng and J. Preskill, Predicting many properties of a quantum system from very few measurements, Nature Phys. 16, 1050 (2020).
8)M. Hibat-Allah, M. Ganahl, L. E. Hayward, R. G. Melko and J. Carrasquilla, Recurrent neural network wave functions, Phys. Rev. Res. 2, 023358 (2020).
9)O. Sharir, Y. Levine, N. Wies, G. Carleo and A. Shashua, Deep autoregressive models for the efficient variational simulation of many-body quantum systems, Phys. Rev. Lett. 124, 020503 (2020).
10)Y.-H. Zhang and M. Di Ventra, Transformer quantum state: a multipurpose model for quantum many-body problems, Phys. Rev. B 107, 075147 (2023).
11)L. L. Viteritti, R. Rende and F. Becca, Transformer variational wave functions for frustrated quantum spin systems, Phys. Rev. Lett. 130, 236401 (2023).
12)D. Pfau, J. S. Spencer, A. G. D. G. Matthews and W. M. C. Foulkes, Ab initio solution of the many-electron Schrödinger equation with deep neural networks, Phys. Rev. Res. 2, 033429 (2020).
13)J. Hermann, Z. Schätzle and F. Noé, Deep-neural-network solution of the electronic Schrödinger equation, Nature Chem. 12, 891 (2020).
14)Z. Liu and B. K. Clark, Unifying view of fermionic neural network quantum states: from neural network backflow to hidden fermion determinant states, Phys. Rev. B 110, 115124 (2024).
15)H. Lange, A. Van de Walle, A. Abedinnia and A. Bohrdt, From architectures to applications: a review of neural quantum states, Quantum Sci. Technol. 9, 040501 (2024).
취리히 인스트루먼트취리히 인스트루먼트
물리대회물리대회
사이언스타임즈사이언스타임즈


페이지 맨 위로 이동