물리학과 첨단기술

PHYSICS PLAZA

크로스로드

화학자가 바라본 단백질 구조예측과 인공지능의 만남

작성자 : 백민경 ㅣ 등록일 : 2022-04-21 ㅣ 조회수 : 1,544

저자약력

백민경 박사는 서울대학교에서 이학박사 학위(물리화학)를 취득하고, 현재 미국 워싱턴대학교 박사후 연구원으로 재직 중이다.

중학교 때 즈음부터인가, 학교에서 장래 희망을 적어내라고 하면 신약개발과 관련된 직업들을 적어내곤 했다. 지금 돌이켜 생각해보면 왜 신약개발을 하고 싶어 했는지 모르겠지만, 그냥 막연히 질병 치료를 위한 약을 개발하는 일이 멋있어 보였나 보다. 그러면서 자연스럽게 대학 전공으로 화학을 택하게 되었고, 학부에 입학할 때만 하더라도 앞으로 유기화학 쪽으로 진로를 선택하게 되리라 생각했다. 하지만 학년이 올라갈수록, 생각보다 나는 유기화학과 유기화학실험을 그다지 좋아하지 않는다는 것을 깨닫게 되었다. 그러다가 물리화학 이론을 바탕으로 컴퓨터 계산을 통해 단백질의 구조와 단백질과 다른 분자 사이의 상호작용을 예측하는 연구 분야가 있다는 것과, 이를 잘 활용하면 신약개발에도 큰 도움을 줄 수 있다는 것을 알게 되었고, 여기에 재미를 느껴 이 분야로 진로를 선택하게 되었다.

그렇다면 단백질에 대해 잘 이해하는 것이 왜 신약개발에도 중요한 것일까? 단백질은 우리 신체를 구성하는 주요 물질일 뿐만 아니라 거의 모든 생명현상에 관여하는 아주 중요한 생체분자이다. 예를 들어 시각, 미각, 후각 등 우리가 외부의 자극을 감지하는 과정에도 단백질이 관여하고 있고, 음식물을 통해 세포가 사용할 에너지를 얻는 소화 및 대사 과정에도 다양한 단백질들이 관여하고 있다. 요즘 코로나 덕분에 좀 더 친숙해진 항체 역시도 면역반응에 관여하는 아주 중요한 단백질 분자이다. 즉, 단백질은 우리가 보고, 먹고, 느끼고, 숨을 쉬며 살아가는 데 있어 가장 핵심적인 분자라고 해도 과언이 아니다. 이러한 단백질에 대해 더욱 잘 이해할 수 있게 된다면, 이를 바탕으로 바이러스/세균에 대항하는 새로운 항체치료제를 개발할 수 있고, 단백질의 기능에 이상이 생겨 나타나는 질병에 대한 치료제를 개발할 수도 있다.

20가지의 아미노산이 적게는 수십 개, 많게는 수천 개 연결된 단백질이라는 분자가 이렇게 다양한 기능을 가지는 것은, 단백질의 서열(아미노산의 조합)에 따라서 서로 다른 구조를 가지고 이에 따른 기능을 수행하기 때문이다. 즉 우리가 단백질의 서열로부터 구조를 알아낼 수 있다면, 이 단백질의 기능을 이해하는 데 아주 큰 도움이 될 수 있다. 또한, 이를 바탕으로 치료제, 백신, 플라스틱 분해효소, 바이오센서 개발 등 다양한 분야로의 응용도 가능해진다. 이러한 중요성 때문에 그동안 수많은 실험과학자가 단백질의 구조를 실험적으로 밝히기 위해 많은 노력을 쏟아왔다. 하지만, 실험을 통해 단백질의 구조를 결정하는 데는 큰 비용과 짧게는 수개월, 길게는 수년이라는 엄청난 시간이 소요된다.

실험을 통해 단백질의 구조를 알아내기 힘든 것에 비해 단백질이 어떠한 아미노산의 조합으로 이루어졌는지, 그 서열을 알아내기는 훨씬 쉽다. 그렇다면 단백질의 서열로부터 단백질의 구조를 컴퓨터 계산을 통해 알아낼 수 있다면 그 시간을 훨씬 단축할 수 있지 않을까? 단백질을 구성하는 아미노산 20가지는 그 성질이 조금씩 달라 서로 가까이 있는 것을 좋아하기도, 혹은 멀리 떨어져 있는 것을 좋아하기도 한다. 아미노산 사이의 상호작용 에너지를 계산하여 가장 안정한 구조를 찾는다면 주어진 서열로부터 단백질의 구조를 예측해 볼 수 있다. 글로는 간단해 보이지만, 실제로 물리화학 원리를 이용해서 단백질의 구조를 예측하는 데는 두 가지 문제가 있다. 첫 번째는 주어진 구조의 에너지를 정확히 계산할 수 있느냐는 것이다. 단백질 역시 원자로 구성되어 있는 분자이기 때문에 기본적으로 양자역학의 법칙을 따른다. 하지만, 수백~수만 개의 원자로 구성된 단백질의 양자역학적 에너지를 정확히 계산한다는 것은 불가능에 가깝다. 두 번째 문제는 단백질이 가질 수 있는 다양한 상태를 모두 탐색하여 어떤 구조가 가장 안정한지 찾아낼 수 있느냐는 것이다. 아미노산 300개로 이루어진 평균 길이의 단백질을 생각해보자. 아미노산 한 개에 대략 10개의 구조를 가질 수 있다고 하면, 이 단백질이 가질 수 있는 구조는 10³⁰⁰개가 된다. 아무리 빠른 컴퓨터를 사용한다고 하더라도 모든 경우의 수를 탐색해보려면 우주의 나이보다도 더 긴 시간이 필요하다. 그렇다면 이러한 한계를 극복할 방법은 없을까?

우리가 눈을 통해 사물을 인지하는 데는 빛을 인식하는 “로돕신”이라는 단백질이 중요한 역할을 한다. 이 단백질은 사람의 눈에도 있고, 원숭이, 고양이, 오징어 등 시각이 존재하는 거의 모든 생명체에 존재한다. 빛을 인식한다는 기능은 같지만, 사람의 로돕신과 원숭이의 로돕신은 그 서열이 다르다. 진화과정에서 단백질의 변이가 일어났지만, 그 기능은 똑같이 유지된 것이다. 진화과정에서 단백질의 변이가 생겼을 때, 아미노산 사이의 상호작용이 변하여 단백질의 구조가 크게 달라진다면 어떨까? 해당 변이 단백질은 원래의 기능을 잃게 되고, 이를 가진 생명체는 살아남지 못하고 도태될 것이다. 즉, 진화과정을 거쳐 살아남은 생명체에서 비슷한 기능을 하는 단백질들은 그 서열에 변화가 생겼더라도 그 구조가 유사하게 유지된다. 이를 역으로 생각해보자. 진화적으로 연관이 있는 단백질들의 서열을 모아본다면, 거기에서 단백질의 구조에 대한 정보를 얻을 수 있지 않을까? 이러한 관점에서 어떻게 하면 단백질의 서열 모음 안에서 구조정보를 찾아낼 수 있을까에 대한 수학적/통계학적 모델을 기반으로 한 방법들, 이를 물리화학 원리와 결합한 방법들이 개발됐다. 진화정보를 활용하는 방법들은 기존의 물리화학 원리에만 기반을 둔 방법들보다는 좋은 성능을 보였지만, 실제 예측된 구조를 신약 개발 등의 응용 연구에 활용하기엔 그 정확도가 떨어진다는 한계를 보였다.

여기서 한 가지 생각해봐야 할 점이 있다. 진화정보를 활용한 단백질 구조 예측 문제에서 결국 우리가 찾고자 하는 것은 단백질 서열 모음이라는 주어진 데이터 안에 숨어있는 단백질 구조에 대한 패턴이라는 점이다. 인공지능이 가장 잘한다고 알려진 일 중의 하나가 바로 “데이터에 숨어있는 패턴 찾기”이다. 어떤가? 인공지능을 단백질 구조 예측에 적용해 보고 싶지 않은가?

실제로 2010년 중반 즈음부터 인공지능을 적용한 단백질 구조 예측 모델들이 본격적으로 만들어지기 시작했다. 하지만 그 당시의 인공지능 방법들은 단백질 구조 예측 문제에 특화된 새로운 인공지능 모델을 만들었다기보다는 이미지 처리 등에 사용되던 모델을 거의 그대로 가져와서 학습만 단백질 데이터에 다시 시킨 모델들에 가까웠다. 기존의 수학적/통계학적 모델보다는 나았지만, 여전히 신약 개발에 활용하기에는 그 절대적인 성능이 아직 부족했다. 문제만 놓고 본다면 인공지능이 잘 해결할 수 있는 유형의 문제인데 어떻게 해야 압도적인 성능을 보이는 모델을 만들어낼 수 있을까? 이 고민의 과정에서 나온 것이 구글 딥마인드의 알파폴드와 내가 개발한 로제타폴드 방법이다. 단백질 구조 예측 과정 요소 하나하나에 어느 인공지능 모델을 활용하는 것이 맞는지, 새로 설계해야 할 부분이 있다면 어떻게 모델을 구성해야 하는지에 대한 수많은 고민 끝에 자연어 처리, 3차원 자료처리 등에 활용되던 모델들을 결합한 새로운 단백질 구조 예측 인공지능 방법을 개발해낸 것이다. 알파폴드와 로제타폴드 방법은 실험 구조에 준하는 높은 정확도의 단백질 구조를 단 몇 분 만에 예측해낼 수 있다. 빠른 속도와 높은 정확도를 기반으로 알파폴드와 로제타폴드는 기존의 실험 위주의 단백질 구조 연구를 계산 기반의 연구로 변화시키고, 신약개발을 가속하는 등 생물학 및 관련 분야 전반에 걸쳐 막대한 영향을 줄 것으로 기대되고 있다[그림 1]. 이러한 이유로 사이언스 저널은 2021년 가장 획기적인 과학기술로 인공지능 기반의 단백질 구조 예측 방법을 선정하였다.

그림 1. 인공지능을 활용한 단백질 구조 연구로의 플랫폼 변화.

사람들이 보통 인공지능이라고 하면, 인공지능이 모든 문제를 알아서 해결한다고 생각한다. 어느 날 갑자기 인공지능이 너무 똑똑해져서 단백질 구조 예측 문제를 해결했다고 생각하는 것이다. 하지만, 인공지능이 단백질 구조 예측 문제를 해결할 수 있었던 데에는 다양한 배경지식을 가진 사람들의 많은 노력이 있었기 때문에 가능했다. 질의응답, 번역 앱과 같은 곳에 사용되던 자연어처리 모델이 어느 날 갑자기 알아서 단백질 구조 예측을 하게 된 것이 아니라, 실제 단백질 구조 분야를 잘 아는 사람이 인공지능 모델 자체를 단백질 구조 예측에 특화해 아주 정교하게 설계했기 때문에 이런 발전을 이룬 것이다. 내가 로제타폴드를 개발하는 과정에서 가장 크게 느낀 것은 인공지능의 응용 분야가 넓어지고 있는 시점에서 정말 중요한 핵심 인력은 인공지능과 응용 분야를 연결 지어줄 수 있는 사람들이라는 것이다. 인공지능을 잘 아는 전문가 혹은 응용 분야의 전통적인 지식을 가진 사람들은 많지만, 이 둘을 연결해서 실제 새로운 가치를 창출해 낼 수 있는 사람들은 턱없이 부족하다. 앞으로 서로 다른 분야를 이해하고 연결하는 능력을 갖춘, 새로운 미래기술을 만들어 낼 수 있는 사람들이 많아지기를 꿈꿔본다.

*아태이론물리센터의 <크로스로드>지와의 상호 협약에 따라 크로스로드에 게재되는 원고를 본 칼럼에 게재합니다. 본 원고의 저작권은 아태이론물리센터와 원저작자에게 있습니다.
*‘과학과 미래 그리고 인류’를 목표로 한 <크로스로드>는 과학 특집, 과학 에세이, 과학 유머, 과학 소설, 과학 만화 등 다양한 장르의 과학 글을 통해 미래의 과학적 비전을 보여주고자 아시아 태평양 이론물리센터(Asia Pacific Center for Theoretical Physics)에서 창간한 과학 웹 저널입니다.
http://crossroads.apctp.org/
*아시아태평양이론물리센터는 정부의 과학기술진흥기금 및 복권기금 지원으로 사회적 가치 제고에 힘쓰고 있습니다.

목록으로

사용자메뉴

주메뉴

주메뉴

서브메뉴

본문영역

PHYSICS PLAZA