물리학과 첨단기술

PHYSICS PLAZA

크로스로드

알파폴드 사태의 재해석: 그들의 착각에 대한 보고서

작성자 : 조태호 ㅣ 등록일 : 2021-04-05 ㅣ 조회수 : 3,083

저자약력

조태호 교수는 일본의 도쿄 의과 치과 대학교에서 막단백질의 3차원 구조 예측 연구로 박사학위를 취득하고(2010), 일본 이화학 연구소(2011-2013), 미국 미주리대학교(2013-2015), 미국 미시건대학교(2015-2017) 박사후 과정을 거쳐 현재 미국 인디애나대학교 의과대학 연구 조교수로 재직 중이다.

흥미로운 그림 하나를 가지고 왔습니다[그림 1]. 2020년 1월, 미국국립과학원회보(PNAS)에 실린 데이빗 베이커 그룹 논문1)의 결과를 설명하는 그림입니다. c 부분을 보면 주황색으로 표시된 막대가 알파폴드보다 앞서 있는 것을 알 수 있습니다. 이들이 만든 trRosetta가 알파폴드를 뛰어넘었다는 뜻입니다.

그림 1. 알파폴드를 분석해 만든 trRosetta.2)

흥미를 더할 만한 포인트가 몇 개 더 있습니다. 2018년, 제13회 단백질 구조 예측 대회(CASP13)에 처음 등장해 기존의 탑 그룹 결과물들을 월등한 차이로 이긴 바 있는 알파폴드가, 탑 그룹 중에서도 큰형 격인 워싱턴대학교 베이커 교수 그룹에 의해 단 1년여 만에 따라 잡혔다는 뜻이기도 합니다. 베이커 그룹은 한발 더 나아가 trRosetta를 누구나 쓸 수 있도록 했습니다. 그러면 다가올 제14회 단백질 구조 예측 대회의 결과에도 시선이 쏠릴 수밖에 없습니다. 과연 이윤 추구를 위해 설립된 딥 마인드의 <원조 알파폴드>가 이길 것인지, 아니면 50여 년 학계의 노하우를 가진 거장의 <알파폴드를 뛰어넘은 툴>이 이길 것인지, 혹은 공개된 trRosetta를 자기만의 분야에 접목시킨 새로운 스타가 대회를 장악할 것인지.

2020년 12월, 기다리던 제14회 단백질 구조 예측대회의 뚜껑이 열렸습니다. 그리고 사람들은 다시 한번 충격에 빠집니다.

그림 2. 제14회 단백질 구조 예측 대회 결과(Average Zscore 기준).<em class=

3)">
그림 2. 제14회 단백질 구조 예측 대회 결과(Average Zscore 기준).3)

완패입니다[그림 2]. 알파폴드2를 앞세워 참여한 딥마인드의 결과를 추월하기는 커녕 격차가 더 벌어졌습니다. 분명 베이커 그룹의 trRotessta는 딥마인드의 알파폴드를 앞섰었습니다. 아무리 알파폴드의 버전이 달라졌다고 해도, 베이커 그룹의 내공도 만만치 않았을텐데 이상하군요. 무언가 놓치는 부분이 있는 걸까요? 1972년 노벨상을 받으며 시작한 50여 년 학계의 노하우가 이토록 크게 뒤쳐지는 이유, 그들이 결코 알파폴드를 따라잡을 수 없었던 이유에 대해서 지금부터 하나씩 풀어 보고자 합니다.

“알파폴드의 방식”을 해석하다

2018년, 단백질 구조 예측 대회에 처음 모습을 드러낸 딥마인드의 알파폴드는 모든 참가자들을 놀라게 하기에 충분했습니다. 26년째 개최되어온 단백질 구조 예측 대회에 처음 참가한 그들이 지난 수십 년간의 학문적 성과를 오롯이 담은 기존의 단백질 구조 예측 툴들을 단숨에 앞질렀기 때문입니다.[그림 3]

그림 3. 2018년 알파폴드의 첫 등장.

사람들은 그들이 어떻게 했는지 궁금해 했습니다. 그들의 발표에 귀를 기울였고, 논문을 기다렸습니다. 딥마인드는 자신의 노하우를 꽁꽁 숨겨두지 않았습니다. 두 번의 논문을 발표했고,4)5) 소스 코드를 공개해6) 자신들의 방법에 대한 재현의 길을 터 주었습니다.

알파폴드의 접근 방법은 그림 한 장[그림 4]으로 요약됩니다.

그림 4. 알파폴드의 접근법.5)

주목해야 하는 세 가지 키워드는, 딥러닝(①), Distance Map(②) 그리고 경사하강법(③)입니다. 딥러닝(①)을 위해서 다중 서열 정렬(MSA)을 이용했고, 학습 알고리즘으로 컨볼루션 뉴럴 네트워크(CNN)를 썼으며 그 결과는 Distance Map(②)으로 나타납니다. 여기선 딥러닝의 이론에 대한 긴 설명은 건너뛰겠습니다. 다만 Distance Map에 대한 설명은 필요해 보입니다. 이를 이해하는 것이 알파폴드의 방식을 이해하는 데 있어서 아주 중요합니다. 예를 들어 [그림 5]는 CASP13 당시 공개된 알파폴드의 Distance Map입니다.

그림 5. Distance Map에 대한 개념.

그림 5A는 단백질의 실제 3차원 구조를 이용해 만든 Distance Map입니다. B는 컨볼루션 과정을 거쳐 예측된 Distance Map입니다. 이 A, B의 가로축과 세로축은 단백질을 이루고 있는 아미노산 서열들입니다. 두 축의 값이 서로 만나는 지점은 배열 사이의 거리를 나타냅니다. 예를 들어 그림 5A의 가로축에 있는 (ㄱ)과 세로축에 있는 (ㄴ)이 만나는 (ㄷ)지점은, (ㄱ)과 (ㄴ) 두 배열 사이의 거리가 색으로 표시된 것입니다. 거리가 가까울수록 색깔이 밝습니다. 단백질 3차원 입체 구조는 이렇게 해서 2차원 그림으로 표현되고, 이렇게 예측된 B그림이 실제 A그림과 유사해지도록 경사하강법(그림 4, ③)으로 오차를 조절하는 것이 바로 알파폴드의 핵심입니다. 예측된 B그림이 실제로부터 온 A그림과 유사해지면, 두 단백질 구조는 C에서 보는 바와 같이 서로 겹쳐 놓았을 때 큰 차이가 없어집니다. 아미노산 배열로 새로운 3차원 구조를 완성하는 것입니다.

trRosseta개발 그룹도 이 눈문을 보면서 똑같이 분석했을 것입니다. 그리고 알파폴드에 보충할 만한 아이디어를 찾아보기 시작했을 것입니다. 딥마인드가 아무리 AI/딥러닝의 최고 기술을 가지고 있다고 하더라도 단백질 구조 예측을 위해 탄생한 회사는 아닙니다. 알파고로 이미 입증한 바 있는 그들의 기술력에 어떤 옷을 입힐지를 고민하던 중 단백질 구조 예측이 자신들의 기술력과 꼭 맞아 떨어진다는 것을 알게 되었을 뿐입니다. 그래서 알파폴드 논문은 필연적으로 화학자, 생물학자들의 평가를 거쳐야 했고, 피어 리뷰를 통과해 나온 결과는 이제 더 많은 전문가들을 만나 재해석되기 시작했을 것입니다. 그렇게 자신의 렌즈로 비추어 보던 수많은 그룹 중 베이커 그룹이 한 가지 아이디어를 냈습니다. 잠깐, 왜 두 배열 사이의 ‘거리’만 보는 거지? 두 배열 사이의 ‘각도’를 고려하면 더 나은 결과가 나오지 않을까? 그림 1a에 해당하는 것이 바로 이러한 아이디어에 대한 설명입니다. 이 아이디어는 세계 최고의 실력자들로 이루어진 베이커 그룹의 연구원들에 의해 멋지게 실현되었고 알파폴드의 기본 결과물에서 한 단계 업그레이드된 결과를 내놓습니다. 이렇게 해서 나온 결과가 바로 “알파폴드를 뛰어넘은 툴”, trRosetta였습니다.

그림 6. trRosetta의 성과를 보고하는 베이커 그룹(CASP14).

왜 여전히 차이가 나는가

하지만 이미 전술했듯, 다시 맞붙은 다음 대회에서 trRosetta를 앞세운 베이커 그룹의 결과는 알파폴드2에 크게 뒤쳐지고 맙니다. 베이커 그룹이 아무것도 잘못하지 않았다는 것이 중요합니다. 베이커 그룹은 자신의 이전 대회 성적을 거뜬히 앞섰고, 자신이 그동안 보여준 모든 예측 결과보다도 좋은 결과를 선보였습니다. 그럼에도 불구하고 알파폴드와 너무나 큰 격차가 난 이유는 무엇일까요.

뜬금없지만, “날 때부터 부부인 사람은 없다.”는 사실을 떠올려 봅니다. 각자의 부모 밑에서 서로 다른 어린 시절을 보내며, 때로 혼탁하고 지난한 홀로서기의 과정을 거친 후, 때가 되어 비로소 만나 부부가 되었을 것입니다. 알파폴드의 탄생도 어쩌면 비슷합니다. 1943년, 신경과학자 워렌 맥컬럭이 허드렛일을 하던 월터 피츠의 능력을 알아보고 그와 함께 2진법 논리회로 모델을 만든 결과7)는 1960년대의 퍼셉트론을 지나, 역전파를 재발견하고 딥러닝의 기초를 쌓는 제프리 힌튼에 이르러 지금의 AI, 딥러닝이 됩니다.

그림 7. 딥러닝의 발전 과정.8)

다른 한편에선 아미노산 배열의 1차 구조를 처음으로 해석한 크리스천 안핀슨이 1972년 노벨상을 받은 이후 X-선 결정학, 핵자기 공명, 극저온 전자 현미경과 같은 실험 기술의 발달이 이어졌고, 분자 생물학, 유전학, 생명 정보학의 성과는 대규모 데이터 축척의 시대를 맞이하게 했습니다. 이 거대한 두 흐름이 맞물린 2018년, 알파폴드가 탄생한 것입니다. 알파폴드를 만들어낸 AI와 생물학의 두 흐름은 어느 한쪽이 중요하다고 할 수 없을 만큼 모두 중요합니다. 두 흐름의 경중을 따질 수는 없다는 뜻입니다.

하지만 어느 쪽의 유속이 더 빠른지를 살펴볼 필요는 있습니다. 지금 우연히 교차점에서 만나 함께 머물고 있는 두 개의 흐름이지만, 그 발전 속도마저 같다고 할 수는 없기 때문입니다. AI쪽 흐름은 유래를 찾아볼 수 없을 만큼 빠른 발전을 이루고 있습니다. 이미지 인식의 수준은 이미 사람을 넘어섰고, 자연어처리, 자율 주행, 얼굴 인식 등은 IT 제품을 타고 우리 생활의 많은 부분에 커다란 영향을 끼치고 있습니다. 놀라운 것은 이 모든 변화가 2012년 제프리 힌튼 그룹의 Alexnet이 ILSVRC 대회에서 경이로운 성과를 거둔 이후, 겨우 8년만에 벌어진 일들이라는 것입니다. 이러한 AI의 엄청난 발전 속도를 놓고 보면 생물학 분야의 발전은 상대적으로 느릴 수밖에 없습니다. 특히 단백질 구조 예측 분야는 제자리에 멈추어 있는 것처럼 보일 정도입니다.

예를 들어 지금으로부터 11년 전인 2010년, 제가 참여했던 제9회 단백질 구조 예측대회(CASP9)의 토의 주제 중 하나가 “계속해서 이 대회를 유지해야 하는가”였던 기억이 있습니다. 이 안건을 토의하던 좌장은 이 대회의 주최자 중 한 명인 Krzysztof Fidelis였습니다. 대회의 존속을 논의해야 할 만큼 비장했던 것은, 단백질 구조 예측의 결과가 제자리 걸음인 상황을 인식하고 있었기 때문입니다. 다행히 단백질 구조 예측 대회는 없어지지 않았지만, 그 후로도 커다란 진보는 없었음이 [그림 8]에서 설명되고 있습니다.

그림 8. 역대 단백질구조예측 대회 GDT_TS 비교(CASP1~14).

가로축은 단백질 구조 예측대회에 출제된 문제의 난이도를 말합니다. 세로축은 예측 결과의 정확도입니다. CASP1부터 CASP12까지, 알파폴드를 만나기 전의 단백질 구조 예측 분야는 발전 속도가 매우 더디었음이 드러납니다. 이 정도면 알파폴드 덕분에 오히려 단백질 구조 예측 대회가 세간의 주목을 다시 받았다고 할 수 있을 정도입니다. 단백질 구조 예측 분야는 딥러닝을 만난 후에야 획기적인 전환점을 맞이한 것입니다.

다시 질문으로 돌아가 보겠습니다. 학계는 최선을 다해 자신의 영역 안에서 알파폴드의 부족한 점을 채웠는데 왜 따라잡지 못했는가? 어쩌면 답은 질문 안에 있을지도 모릅니다. 학계가 최선을 다해 자신의 영역을 고수했다는 것은 결국 학계는 최선을 다해 자신의 영역에 머물렀다는 뜻이기 때문입니다.

학문의 특성상 화학적, 생물학적 지식은 짧은 시기에 “폭발적”으로 발전할 만한 것이 아닙니다. AI와 다른 점입니다. 다시 말해, C\(\small \beta\)-C\(\small\beta\)의 Distance에 \(\small d, \omega, \theta, \phi\) 각도를 더하는 베이커 그룹의 노력은, CNN을 과감히 버리고 AI의 흐름에 발맞추어 Transformer와 Attention을 도입한 알파폴드2를 결코 따라잡을 수 없다는 것입니다.

그림 9. CNN과 Transformer의 model architecture.9)10)

알파폴드는 16개의 TPUv3(대략 100‒200개의 GPU)로 3~4주 정도 학습을 했다고 발표했습니다. 물론 짧은 학습은 아니지만, 업계의 일반적인 규모를 생각해 보면 특별히 길다고 할 수도 없습니다. 사실 그들이 PDB, Uniprot로부터 “공짜로” 가져가 쓴 학습용 데이터들이 50여 년을 이어온 오랜 노력의 결과물이라는 점을 생각해 보면, 3~4주의 학습 시간은 그저 순간처럼 느껴질 정도입니다. 게다가 이는 학계의 대가나 노벨상 수상자가 아닌, 그저 딥러닝으로 하면 “된다”는 것을 확신하는 몇몇 사람들이 모여 이룬 것입니다. 그렇다면 이렇게 물어보고 싶기도 합니다. 단지 3~4주 학습하면 이룰 만한 것이 바로 옆에 있었는데, 50년간 공부해 오던 이들은 어째서 이를 모르고 있었는지 말입니다.

물론 아무런 노력을 안하고 있던 것은 아닐 겁니다. 예를 들어 2014년, 단백질 접힘 구조 예측에 딥러닝을 도입한 그룹이 있었습니다. 미주리 대학의 지알린 챙 교수는 오래도록 머신 러닝과 단백질 구조 예측을 연결하기 위해 노력해온 사람입니다. 그가 제프리 힌튼 교수의 RBM 논문을 들고 와 한번 해 보자며 프로젝트를 지시했을 때, 운 좋게도 이 프로젝트의 제1저자로 참여한 저는 뛰어난 동료들 덕분에 실험을 성공적으로 마친 바 있습니다.11) 그런데 실험 직후, 포닥이던 저는 챙 교수와 함께 책상에 앉아 한숨을 쉬며 앞날을 걱정해야 했습니다. “딥러닝은 블랙박스, 매직 스틱”이라며 펀드를 주지 않는 학계의 냉대가 챙 교수의 연구 자금을 말라붙게 했기 때문입니다.

물론 냉정한 평가와 객관적 지표의 요구는 학계의 근간과도 같습니다. 이러한 잣대를 탓할 수는 없을 것입니다. 하지만, 이러한 방어와 조심성이 결국 수 년 후, 알파폴드라는 현실을 불러왔다는 사실을 직시할 필요가 있습니다. 알파폴드의 활약을 속수무책으로 바라보던 일부는 향후 연구에 대한 걱정을 토로하고, 일부는 알파폴드의 소스코드를 내놓으라며 항의하고 있습니다. 참으로 ‘알파폴드 사태’가 아닐 수 없습니다.

아직 활짝 열려 있는 문

시대가 바뀌고 있고 세상이 변하고 있습니다. 학문의 경계 안에서 그동안 평가의 잣대로 사용되던 기준이 변하고 있고 나의 영역을 고수하는 것이 오히려 나를 그 안에 가두어 놓는 시대를 살고 있습니다. 이제 내 영역 안에 딥러닝이라는 툴을 가져와 쓰는 것을 넘어, 딥러닝을 제대로 알고 AI를 공부해서 기존의 영역을 다시 점검해야 할 때가 찾아왔습니다.

이 글은 단백질 구조 예측의 세계적인 권위자이면서, 지금은 우선 알파고를 따라잡기 위해 바둑 AI로 새로운 도전을 하고 있는 고등과학원 계산과학부 이주영 교수를 응원하는 마음으로 쓰고 있습니다. 학문적 외도(外道)라고 생각하지 않느냐는 질문에, “단백질과 신물질 연구 과제에 다가가는 방편으로 바둑 AI에 승부를 걸어볼 생각”이라는 그의 답변12)은, 알파폴드를 흉내 내기보다 그 원류인 알파고에 직접 도전하는 모습으로 다가옵니다.

아직 기회는 문을 열어 놓고 우리를 기다리고 있습니다. 알파폴드는 결코 뛰어난 사람들이 천재적인 기술로 만든, 범접할 수 없는 소프트웨어가 아닙니다. 속을 뜯어보니 결국 누군가 해 놓은 CNN알고리즘(알파폴드 버전1)과 Transformer알고리즘(알파폴드 버전2)에 학자들이 오랜 기간 만들어 놓은 공개 데이터(Uniprot, PDB)를 가져와 쓴 결과입니다. 이제 와서 보니 그들은 C\(\small \beta\)-C\(\small \beta\)의 거리와 함께 ‘각도’를 잴 수 있다는 것도 생각을 못했습니다. 그런데 그들이 만든 알파폴드는 단백질 구조 예측에 평생을 바친 단백체학, 구조 생물학 전공자들을 단숨에 얼어붙게 만드는 파괴력을 선보이고 있습니다. 그렇다면 알파폴드는 AI의 흐름이 생각보다 단단하고 거대하다는 경고로 보아야 할 것입니다. 수십 년간 쌓아온 견고한 학문의 성 마저도 어느 순간 단숨에 무너질 수 있다는 메시지인 것입니다.

여전히 AI시대의 초입이라는 건 좋은 소식입니다. 지금은 딥러닝을 쉽게 배울 수 있는 때입니다. 필요한 대부분이 라이브러리로 준비되어 있고, 깃허브(GitHub)에는 잘된 소스코드가 공유되어 있습니다. 연구와 학문의 길을 걷는 사람이라면, 자신의 분야에 그동안 쏟아 부은 에너지의 작은 부분만으로도 AI라는 거인의 어깨에 올라탈 수 있습니다. 자리를 털고 일어나기만 하면 됩니다. 제자리에 머무는 것이 아니라, AI를 나의 무기로 삼고 그들의 어깨에 올라타 세상을 향해 뛰어나가야 할 때입니다. 변화의 시기는 이미 찾아왔습니다. 그게 어떤 분야이든, “알파폴드”의 다음 영광은 거대한 변화의 흐름을 읽고 미리 준비하는 이들의 차지가 될 것입니다.

*아태이론물리센터의 <크로스로드>지와의 상호 협약에 따라 크로스로드에 게재되는 원고를 본 칼럼에 게재합니다. 본 원고의 저작권은 아태이론물리센터와 원저작자에게 있습니다.
*‘과학과 미래 그리고 인류’를 목표로 한 <크로스로드>는 과학 특집, 과학 에세이, 과학 유머, 과학 소설, 과학 만화 등 다양한 장르의 과학 글을 통해 미래의 과학적 비전을 보여주고자 아시아 태평양 이론물리센터(Asia Pacific Center for Theoretical Physics)에서 창간한 과학 웹 저널입니다.
http://crossroads.apctp.org/

각주: 1)Yang, Jianyi et al., Proceedings of the National Academy of Sciences 117(3), 1496 (2020).; 2)http://fold.it/portal/node/2008706.; 3)https://predictioncenter.org/casp14/zscores_final.cgi.; 4)Senior, Andrew W. et al., Proteins: Structure, Function, and Bioinformatics 87(12), 1141 (2019).; 5)Senior, Andrew W. et al., Nature 577(7792), 706 (2020).; 6)https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13.; 7)조태호, “모두의 딥러닝”, 길벗 (2020).; 8)deepkapha.ai.; 9)Jo, Taeho, Kwangsik Nho and Andrew J. Saykin, Frontiers in aging neuroscience 11, 220 (2019).; 10)Vaswani, Ashish, et al., "Attention is all you need", arXiv preprint arXiv:1706.03762 (2017).; 11)Jo, Taeho et al., Scientific Reports 5.1, 1-11 (2015).; 12)https://www.chosun.com/site/data/html_dir/2018/04/17/ 2018041700187.html.

목록으로

사용자메뉴

주메뉴

주메뉴

서브메뉴

본문영역

PHYSICS PLAZA

“알파폴드의 방식”을 해석하다

왜 여전히 차이가 나는가

아직 활짝 열려 있는 문