물리학과 첨단기술

특집

생명 시스템에서의 상분리 현상과 물리학

생체분자 상분리의 이론적 및 수치적 접근법

작성자 : 엄유곤·최정모 ㅣ 등록일 : 2025-01-16 ㅣ 조회수 : 3,392 ㅣ DOI : 10.3938/PhiT.34.002

저자약력

엄유곤 연구원은 2023년 부산대학교 화학과에서 이학 석사 학위를 취득하였으며 현재 같은 대학 화학과 분자 모델링 및 설계 연구실에서 박사과정으로 재학 중이다. (lauricacid@pusan.ac.kr)

최정모 교수는 2016년 하버드대학교에서 이론화학으로 이학 박사 학위를 취득했고, 이후 세인트루이스 소재 워싱턴대학교에서 박사후 연구원으로 근무한 후, 2020년부터 부산대학교 화학과에서 교수로 재직 중이다. 생체 분자의 다양한 성질을 통계역학 이론 및 시뮬레이션을 사용하여 연구하고 있다. (jmchoi@pusan.ac.kr)

Theoretical and Numerical Approaches towards Biomolecular Phase Separation

Yu-Gon EOM and Jeong-Mo CHOI

Biomolecular phase separation is one of the fundamental processes in cells, compartmentalizing the cellular space in a relatively short time. The molecular mechanisms governing phase separation remain an active area of research. This article explores theoretical and computational approaches to studying phase separation, including analytical approaches, particle-based simulations, field-based simulations, and machine-learning techniques. By integrating these approaches, we can deepen our understanding of phase separation and its role in cellular organization and disease.

들어가며

생체분자 상분리(biomolecular phase separation)는 세포 내에서 중요한 기능을 수행하는 보편적인 과정으로 유전자 발현, 신호 전달, 대사 등을 조절하며, 알츠하이머, 헌팅턴병, 근위축성 측삭 경화증(ALS) 등의 질병과도 연관되어 있다. 그 중요성에 비해 이 현상이 발견된 것이 오래 되지 않아 아직 많은 연구가 필요한 실정이다. 이론적 및 수치적 접근법은 실험으로 다루기 어려운 분자 수준의 데이터를 제공하며, 상분리 연구의 중요한 도구로 자리 잡고 있다. 본 특집호에서는 해석적 방법, 입자 기반 시뮬레이션, 장 기반 시뮬레이션, 기계 학습 방법 등 상분리 연구에 사용되는 여러 가지 이론적·수치적 도구를 소개하고자 한다.

서 론

상분리는 열역학적 과정으로, 두 성분(혹은 그 이상)으로 이루어진 용액이 자발적으로 분리되어 각각 특정 성분이 농축된 상으로 나뉘는 현상이다. 일반적인 생체분자 상분리에서 시스템은 단백질 등 생체분자와 용매(완충용액)로 이루어진 혼합물이며, 이 혼합물은 생체분자가 적게 분포하는 “희석 상(dilute phase)”과 생체분자가 많이 분포하는 “농축 상(condensed phase)”으로 분리된다. 상분리를 결정하는 주요 원동력은 시스템의 엔트로피와 엔탈피 간의 경쟁이다. 엔트로피는 일반적으로 혼합을 선호하지만, 분자간 상호작용에 따라 엔탈피가 혼합보다 분리를 선호한다면 자발적인 상분리가 일어날 수 있다.

Fig. 1. Schematic diagrams for biomolecular phase separation. (a) Phase diagram with regions of mixed and demixed phases delineated by the coexistence curve. (b) Stickers-and-spacers framework. In multi-domain proteins, folded domains can be considered as stickers, while single amino acid residues may be stickers for intrinsically disordered proteins.

상분리는 상도표(phase diagram)를 이용하여 정량적으로 분석할 수 있다. 상경계(phase boundary)는 혼합상과 분리상이 열역학적으로 공존할 수 있는 상태를 나타내는 지점들의 집합으로 정의된다(그림 1(a)). 일반적으로 세포 내 조건에서는 생체분자의 농도가 저농도의 상경계 근처에 위치한다. 따라서, 고정된 조건하에서 생체분자의 농도를 서서히 증가시키면 계는 혼합상에서 분리상으로 상전이를 겪으며, 이 지점을 포화 농도(saturation concentration)로 부른다.

세포 내에서 상분리를 추동하는 분자들로는 단백질, RNA 등이 알려져 있고, 그 중 특히 전형적인 분자 구조로는 두 가지가 잘 알려져 있다. 멀티도메인 단백질(multi-domain protein)은 안정적인 접힌 구조를 이루는 도메인 여러 개가 유연한 링커로 연결된 단백질로, 도메인들 간의 인력이 존재할 때 상분리를 추동할 수 있다. 이보다 세포 내에서 더 널리 사용되는 종류는 비정형 단백질(intrinsically disordered protein, IDP)로, 이들은 전형적인 접힘 과정을 거치지 않고, 대신 다양한 구조를 가질 수 있는 유연한 단백질들이다. 이러한 예들은 “스티커 및 스페이서” 모형을 통해 개념적으로 이해될 수 있다(그림 1(b)).1) 스티커는 고분자 간 상호작용을 담당하는 영역이고, 스페이서는 그 외의 영역으로 상호작용에 크게 기여하지 않는다. 스티커끼리의 상호작용은 일반적으로 약하고 일시적이나, 여러 스티커가 상호작용에 참여하면서 한 고분자와 다른 고분자가 효율적으로 연결될 수 있다. 이를 다가성 상호작용(multivalent interaction)이라 하며, 생체 내 상분리의 중요한 특징이다. 특히 IDP의 경우 다가성 상호작용으로 작용할 수 있는 상호작용이 분자 차원에서 많이 연구되어 있으므로, 독자의 이해를 돕기 위해 그 내용을 간단히 소개하고자 한다.

Fig. 2. Intermolecular interactions that can contribute to driving and stabilizing the macromolecular droplets formed by phase separation.

IDP의 상분리는 아미노산 차원의 상호작용을 통해 이해할 수 있다. 20가지의 표준 아미노산 외에도 세포 내 전사 후 변형(post-translational modification) 등으로 다양한 아미노산 유도체가 가능하며, 이들 사이에 여러 층위의 상호작용이 일어날 수 있다. IDP 서열이 상분리에 미치는 영향을 이해하려면 이러한 상호작용이 상분리 능력에 기여하는 방식을 이해해야 한다. 생체고분자의 대표적인 상호작용인 전하-전하 상호작용, \(\small\pi\)-\(\small\pi\) 상호작용, 양이온-\(\small\pi\) 상호작용, 소수성 상호작용, 수소 결합이 생체분자 상분리에 사용될 수 있을지 검토해 보자(그림 2).

전하-전하 상호작용은 일반적으로 생체 분자 사이에서 가장 강한 상호작용 중 하나로 간주된다. IDP의 상분리에서도 전하-전하 상호작용이 자주 활용된다. 동일한 단백질 내에 염기성 아미노산(양전하를 띤 아미노산)과 산성 아미노산(음전하를 띤 아미노산)이 모두 많이 들어 있다면 해당 단백질만으로도 상분리가 일어날 수 있다(단순 코아세르베이션, simple coacervation). 또한, 염기성 아미노산을 많이 포함한 IDP와 산성 아미노산을 많이 포함한 IDP를 혼합한다면 역시 상분리가 촉발될 수 있다(복합 코아세르베이션, complex coacervation).

sp² 원자 간의 상호작용에서 비롯되는 \(\small\pi\)-\(\small\pi\) 상호작용은 생체분자 상분리에 중요한 요소다. 페닐알라닌, 타이로신, 트립토판과 같은 방향족 아미노산은 전하 분포로 인해 일종의 전기적 사중극자(electric quadruple)로 작용할 수 있다. 이들을 \(\small\pi\) 컨쥬게이션 계(\(\small\pi\) conjugation system)라고도 하므로 이들의 상호작용은 \(\small\pi\)-\(\small\pi\) 상호작용이라고 부르며, 생체 내 단백질에서 자주 관찰되는 상호작용이다. 여기에 더하여 염기성 아미노산과 방향족 아미노산 사이에도 상호작용이 자주 일어나는데, 이를 양이온-\(\small\pi\) 상호작용이라고 부른다. \(\small\pi\)-\(\small\pi\) 상호작용과 양이온-\(\small\pi\) 상호작용 모두 많은 IDP의 상분리에서 중요한 역할을 수행한다는 것이 밝혀졌다.

소수성 상호작용은 IDP의 상분리에서 널리 사용되지는 않으나, 엘라스틴 유사 펩타이드(elastin-like peptide)와 같은 몇몇 단백질의 상분리에 중요한 역할을 한다. 소수성 아미노산은 방향족 아미노산을 포함하는 넓은 분류로, 수용액 조건에서는 이들 사이에서 소수성 상호작용이 발생할 수 있다. 다만 소수성 아미노산이 지나치게 많이 증가하면 상호작용이 매우 강해져서 상분리 대신 비가역적인 응집 현상이 일어날 수 있다.

대부분의 아미노산은 수소 결합 주개와 받개를 포함하고 있다. 이에 따라 수소 결합은 극성 아미노산의 용해에 기여할 뿐만 아니라 생체분자의 자가조립에도 중요한 역할을 한다. 하지만 수소 결합은 워낙 보편적인 결합이라 선택성을 갖기 힘들고, 일반적으로 IDP의 상분리에서 널리 사용되지는 않는다. 다만 핵산 역시 수소 결합에 참여할 수 있으므로, RNA와 DNA가 응축체에 섞이기 위해 중요한 역할을 할 가능성이 높다.

이러한 일반적인 이해를 기반으로, 아래에서는 생체분자의 상분리 현상을 이해하는 데 사용되는 다양한 이론적 및 수치적 접근법을 소개하고자 한다. 특히 IDP에 대한 연구가 압도적으로 많이 진행되었고, 아래에 소개하는 접근법 중 많은 수가 IDP의 상분리 현상을 설명하고자 개발되었음에 유의하자.

해석적 접근법

상분리 현상은 합성 고분자에서도 중요하기 때문에, 이미 오랫동안 다양한 해석적 모형이 논의되어 왔다. 현재 그렇게 개발된 이론들을 확장하고 응용함으로써 생체분자 상분리를 이해하고자 하는 여러 연구가 진행되고 있다. 여기서는 Flory-Huggins 이론, 무작위 위상 근사(Random Phase Approximation, RPA), 그리고 가우시안 클러스터 이론(Gaussian Cluster Theory, GCT)을 다룬다. 또한, 고분자 응축 과정을 스미기(percolation)로 이해하여 접근하는 해석적 및 준해석적 기법을 소개한다(그림 3).

Fig. 3. Polymer models employed by analytical methods to study phase separation of biopolymer chains in an electrolytic solution.

1. Flory-Huggins 이론

Flory-Huggins 이론은 이성분계의 상전이를 설명하기 위한 초기 시도로 제안되었다.2)3) 이 이론은 서열의 패턴은 완전히 무시하고, 각 고분자를 스티커 집합처럼 간주한다. 고분자-용매 이성분 단순 혼합물에서 전체 자유 에너지 밀도는 아래와 같이 표현된다.

\[f(\varphi)=\frac{\varphi}{N} \ln (\varphi)+(1-\varphi) \ln(1-\varphi)+\chi \varphi(1-\varphi),\]

여기서 \(\small N\)은 고분자 사슬 길이, \(\small \varphi\)는 고분자의 부피 분율, \(\small\chi\)는 고분자-용매 상호작용 매개변수(Flory 매개변수)이다. 첫 번째 두 항은 혼합 엔트로피를 나타내고, 세 번째 항은 혼합의 평균장 에너지를 나타낸다. \(\small\chi\) 값은 고분자-고분자 및 용매-용매 상호작용과 고분자-용매 상호작용 중 어느 쪽을 선호하는지를 보여주며, \(\small\chi\) 값이 낮을수록 고분자-용매 상호작용이 더 선호됨을 의미한다. 이 매개변수 \(\small\chi\)는 염 조건, pH 등 환경 조건에 민감한 것으로 알려져 있다.

Flory-Huggins 이론은 동일한 조성을 가진 다른 서열을 구별하지 못하는 점이 있어 서열 의존적인 상분리를 설명하는 데는 적합하지 않으나, 쉽게 다성분 시스템으로 확장할 수 있으므로 서로 다른 구성 요소를 포함하는 다양한 생체분자 응축체가 존재하는 세포와 같은 시스템을 연구하는 데 유용하다.

2. 무작위 위상 근사

전자 기체에 대한 양자역학 이론에서 도입된 “무작위 위상 근사(RPA)”라는 용어는 1960~1970년대에 고분자 이론으로 확장되었다.4) RPA는 Flory-Huggins 이론과 달리 고분자 사슬의 연결성을 무시하지 않고, 고분자 밀도의 국소 요동에 대한 공간적 상관성을 상호작용 에너지에 도입한다. 이를 통해 RPA는 Flory-Huggins 이론에 비해 IDP 상분리에서 나타나는 서열 의존성을 효과적으로 설명할 수 있다.

RPA에서 상호작용 자유 에너지는 고분자 밀도의 요동에 대한 통계역학적 적분을 포함하며, 이는 고분자의 부피 분율 ????에 대한 서열 의존적 함수로 나타난다. 그러나 RPA의 상호작용 에너지는 고분자 밀도의 이체(two-body) 공간 상관관계만 고려하고 다체 상관관계는 무시한다. 따라서 이 근사는 고분자 밀도의 공간적 요동이 적은 경우에만 유효하다.

3. 가우시안 클러스터 이론

1996년 Raos와 Allegra는 단일 사슬 구조의 코일형-구형 전이(coil-to-globule transition)와 상분리 간의 관계를 이론화하기 위해 가우시안 클러스터 이론(GCT)을 제안했다.5) GCT는 Kuhn 조각 사이의 거리 분포를 정규 분포 형태로 가정하고, 평균장 자유 에너지를 사용해 사슬 내부 및 사슬 간 상호작용의 온도 의존성을 설명한다. 공존 곡선(binodal)과 불안정성 곡선(spinodal)은 온도에 따라 변하는 값의 집합으로 정의되며, 단일 사슬 구조의 코일형-구형 전이 매개변수를 기반으로 고분자 용액의 전체 상도표를 계산할 수 있다.

GCT는 요동을 무시하는 평균장 이론으로, 요동이 중요해지는 임계온도에 접근할수록 이론적으로 두 상 영역의 폭을 설명하기 어렵다는 한계를 가진다. 특히 구조적 전이가 크지 않은 계는 GCT를 적용하기 어려운데, 이는 임계온도에 가까워질수록 두 상 영역이 좁아지고 응축상이 매우 묽어지기 때문이다. 그러나 코일형-구형 전이에 대한 매개변수를 결정할 수 있다면, GCT는 상도표에 대한 광범위한 비교 평가를 수행하는 데 유용하다.

4. 스미기 기반 접근법

최근 생체분자 상분리를 예측하고 설명하는 데 스미기(percolation) 개념을 사용하는 일련의 해석적 및 준해석적 연구가 발표되었다. 이러한 모형들은 스티커 및 스페이서 모형을 기반으로 하여, 스티커 간의 상호작용이 충분히 형성되어 거대한 네트워크가 만들어질 때 상분리가 일어난다고 가정한다. 고전적 스미기 문제와 유사한 접근법을 활용하기 위해, 이 모형들은 포화 농도 대신 스미기 임계점(percolation threshold)을 예측하며 이를 상분리 경향의 지표로 사용한다.

스미기 거동을 모사하기 위해 수치 시뮬레이션 모형을 활용할 수 있다.6) 최근 개발된 그래프 기반 시뮬레이션 모듈에서는 고분자의 스티커를 그래프의 노드로, 스티커 간 상호작용을 링크로 모델링한다. 링크의 확률적 형성과 제거를 통해 계가 변화하며, 시스템의 자유 에너지가 시스템의 집합적 상태(스미기 발생 여부)를 결정한다. 이 모형을 사용하면 해석적 모형에서 다루기 까다로운 복잡한 사슬-사슬 상호작용을 도입할 수 있고, 이를 통해 스티커 상호작용의 협동성(cooperativity) 등을 연구할 수 있다.

입자 기반 시뮬레이션

입자 기반 시뮬레이션은 분자를 입자들의 그룹으로 나타내고 여기에 물리 법칙을 적용하여 시스템을 변화시킨다. 해상도에 따라 입자 기반 시뮬레이션은 원자 수준 시뮬레이션과 조잡화(coarse-grained) 시뮬레이션으로 나뉜다. 전자는 계를 원자 수준에서 묘사하며, 후자는 단량체와 같은 더 큰 단위를 모형 입자로 가정한다. 입자 간 상호작용은 관련된 입자의 종류와 기하학적 특성에 따라 달라지며, 수학적으로 공식화하여 도입한다.

시스템을 열적 평형 상태로 수렴시키고 동적 성질을 모델링하기 위한 주요 방법은 두 가지가 있다. 몬테카를로(Monte Carlo, MC) 방식은 확률 계산과 무작위 샘플링을 사용해 시스템을 추적하며, 분자 동역학(Molecular Dynamics, MD) 시뮬레이션은 뉴턴의 운동 방정식을 적분하여 입자의 위치, 속도, 가속도를 시간의 함수로 표현한다. 이 두 방법은 연성 물질 계의 시뮬레이션에 널리 사용되며, 생체분자 상분리에도 적용 가능하다.

1. 원자 차원 시뮬레이션

Fig. 4. Representations of simulations and models: all-atom (a) versus coarse-grained (b), and lattice (c) versus off-lattice (d).

원자 차원 시뮬레이션은 분자 시스템을 원자 수준에서 모델링하며 매우 세부적인 정보를 제공한다(그림 4(a)). 그러나 이는 상당한 계산 자원을 요구한다. 특히 상분리와 같이 집단적인 거동을 수반하고 적절한 모델링을 위해 많은 수의 분자가 필요한 경우, 현재의 계산 방법론으로 원자 차원 시뮬레이션을 실행하는 것은 매우 어려운 과제다. 따라서 원자 차원 시뮬레이션은 상분리 연구에서 상대적으로 짧은 IDP와 같은 소규모 시스템에만 제한적으로 사용된다.

2. 조잡화 시뮬레이션

조잡화(coarse-graining)는 개별 원자나 분자를 더 큰 단위(예: 단백질의 아미노산 잔기)로 대체하는 계산 모델링 전략이다(그림 4(b)). 조잡화 시뮬레이션은 원자 수준의 세부사항은 줄 수 없지만, 대신 높은 계산 효율성을 가지고 시스템의 중요한 물리적 거동만을 포착하는 것을 목표로 한다. 이를 통해 더 큰 길이 척도와 더 긴 시간 척도에서 생체분자의 상분리 거동을 연구할 수 있다. 조잡화 시뮬레이션에서 고분자의 공간 표현은 격자(lattice) 모형과 비격자(off-lattice) 모형 중 하나로 분류된다.

(1) 격자 모형
격자 모형은 이산화된 공간, 즉 2차원 또는 3차원 격자 공간을 사용하여 계산 비용을 줄인다. 입자는 격자점에만 위치할 수 있으며, 이동은 한 격자점에서 다른 격자점으로의 이동으로 제한된다(그림 4(c)). 이러한 모형은 합성 고분자의 거동을 연구하기 위해 개발 및 활용되어 왔으며, 이제 생체분자 상분리 연구에도 적용되기에 이르렀다. 격자 모형에 따라 멀티도메인 단백질을 목표로 하는 모형이 있고 IDP를 목표로 하는 모형이 있다.

격자 모형은 스티커 및 스페이서 모형을 구현하는 데 적합하다. LASSI (LAttice simulation engine for Sticker and Spacer Interactions)7)는 스티커 및 스페이서 모형을 격자 위에서 구현하기 위해 개발된 격자 모형 시뮬레이션 엔진으로, 멀티도메인 단백질과 IDP를 모두 묘사할 수 있다. 이러한 장점을 기반으로 LASSI는 현재 단백질뿐 아니라 RNA까지 혼합된 응축물의 성질을 설명하는 데 활용되고 있다.

(2) 비격자 모형
비격자 모형은 입자가 3차원 실제 공간에 배치되어 입자의 정교한 움직임을 표현할 수 있다는 점에서 더 현실적이다(그림 4(d)). GROMACS,8) LAMMPS,9) HOOMD-blue10)와 같은 다양한 시뮬레이션 엔진이 비격자 입자 시뮬레이션에 널리 사용되며, 이들은 조잡화 시뮬레이션과 원자 차원 시뮬레이션에 모두 활용될 수 있다. 조잡화 시뮬레이션을 위해서 MARTINI,11) SIRAH12) 등과 같은 다양한 모형이 개발되었으며, 이들 모형은 원자 차원 시뮬레이션으로부터 얻은 데이터에서 구성 입자를 그룹화하고 이를 더 큰 입자로 대체한다. 조잡화 모형의 상호작용 매개변수를 결정하는 과정은 자명하지 않으며, 각 모형은 고유한 가정과 전략에 의존한다.

비격자 상분리 시뮬레이션에서는 슬랩(slab) 방법이 자주 사용된다. 이 방법에서 일반적으로 시뮬레이션 상자는 하나의 축(z축)이 상당히 긴 직육면체 모양을 채택하며, xz 및 yz 경계면은 주기적이고 xy 경계면은 비주기적이다. 상분리가 발생하면 상자 속 입자 밀도가 z축을 따라 유의미한 변화를 보이므로 분석이 용이해진다. 슬랩 방법론은 수렴에 필요한 시뮬레이션 시간을 줄이고, 전체 계산 비용을 절감하는 데 도움을 준다.

장 기반 시뮬레이션

장 기반 시뮬레이션은 고분자의 분포를 “밀도 장(density field)”으로 설명하여 시스템의 열역학적 특성을 계산하는 방법이다. 이 방법은 Fredrickson과 그의 동료들에 의해 합성 고분자 연구를 위해 처음 개발되었으며,13) 다중전해질(polyelectrolyte) 용액의 상분리를 묘사하는 데 사용된 바 있다.14) 따라서 특히 전하-전하 상호작용에 의해 유도되는 생체분자 상분리 연구에 활용될 수 있다.

장 기반 시뮬레이션은 근사를 필요로 하지 않고 직접적으로 계의 상태를 샘플링할 수 있어 수치적 오류가 거의 없으며, IDP 상분리에서 근사 기반 RPA에 비해 더 크고 밀도가 높은 시스템에도 적용할 수 있다. 더욱이, 입자 기반 시뮬레이션과 비교하면 장 기반 시뮬레이션은 평형에 더 빠르게 도달하므로 계산량도 획기적으로 줄일 수 있다.15) 다만, 격자 단백질 시뮬레이션과 그에 대응하는 장 기반 시뮬레이션의 결과를 비교한 최신 연구에 따르면, 배제 부피 반발력(excluded-volume repulsion)이 매우 강하지 않은 경우에만 두 결과가 일치하는 결과를 준다는 한계점이 있다.16)

기계 학습 기반 방법

딥러닝(deep learning) 기법이 인공지능 분야에서 등장하면서, 기계 학습은 정확한 분류와 예측 능력으로 주목받고 있다. 기계 학습 알고리즘은 데이터에서 학습하여 실험적으로 알려지지 않은 정보를 분류하거나 예측하는 데 활용된다. 특히, 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)과 같은 다양한 접근법이 과학 연구 전반에 적용되고 있다. 생체분자 상분리 연구에서는 기계 학습을 활용해 특정 분자의 상분리 경향을 신속하게 예측하려는 시도가 활발히 이루어지고 있다.

생체분자 상분리 연구를 위해 최근 개발된 몇 가지 기계 학습 방법론을 소개해보면 다음과 같다. 단백질의 구조 정보와 상분리 데이터를 기반으로 설계된 이진 로지스틱 회귀 모형 FuzDrop17)이 있으며, 상분리 단백질의 데이터베이스 위주로 설계된 랜덤 포레스트 모형 DeePhase18)와 PSAP19)가 있다. 이외에도 그래디언트 부스팅 결정 트리 모형인 PSPredictor,20) 단백질 구조 정보로부터 얻은 단백질 간의 π-π 상호작용이나 방향족 잔기의 배열 등 상분리를 유도하는 특정 상호작용 정보를 반영한 선형 회귀 모형인 PScore21)와 이를 개선한 LLPhyScore22) 등이 있다.

기계 학습 기반 접근법은 데이터에 기반해 상분리 경향을 학습하고 예측함으로써 기존 모형 기반 접근법보다 압도적으로 빠르게 예측값을 제시한다. 그러나 데이터의 편향성과 제한된 데이터 크기는 여전히 극복해야 할 과제다. 아직 실험적으로 다양한 상분리 분자들의 정량화된 성질이 수집되지 않았기 때문이다. 다양한 생체분자 시스템에 대한 정량적 데이터를 확보하고 이를 학습에 반영한다면, 기계 학습 방법은 생체분자 상분리 연구에서 더욱 강력한 도구로 자리 잡을 수 있을 것이다.

맺음말

생체분자 상분리는 세포 내에서 중요한 역할을 하지만, 그 근본 원리와 메커니즘에 대한 이해는 여전히 부족하다. 이를 극복하기 위해 다양한 이론적, 계산적 접근법이 시도되어 왔으며, 해석적 접근법, 입자 기반 시뮬레이션, 장 기반 시뮬레이션, 기계 학습 등 다양한 철학에 기반한 방법론들이 개발되었다. 이 특집호에서는 독자들에게 분야에 대한 조망을 제공하고자 그중 몇 가지 중요한 방법론들을 요약하여 소개하였다.

이론적 및 수치적 모형들은 분자 수준의 정보를 제공함으로써 실험 데이터를 해석할 수 있는 통찰을 제공해 왔다. 그러나 세포 내 상분리 현상에 대해서는 여전히 많은 질문이 남아있다. 전사 후 변형이 지속적으로 일어나는 복잡한 세포 내 환경을 시뮬레이션할 수 있을까? 세포와 같이 불균일하고 평형에서 멀리 위치한 계에서 상분리를 정확하게 예측할 수 있을까? 상분리와 세포 내 여러 과정들 사이의 상호작용은 묘사할 수 있을까? 모델링 연구자들의 지치지 않는 시도를 통해 가까운 미래에 이런 질문들에 대한 답을 얻을 수 있기를 기대한다.

각주: 1)J.-M. Choi et al., Physical Principles Underlying the Complex Biology of Intracellular Phase Transitions, Annu. Rev. Biophys. 49, 107 (2020).; 2)M. L. Huggins, Solutions of Long Chain Compounds, J. Chem. Phys. 9, 440 (1941).; 3)P. J. Flory, Thermodynamics of high polymer solutions, J. Chem. Phys. 10, 51 (1942).; 4)P.-G. De Gennes, Scaling Concepts in Polymer Physics (Cornell University Press, 1979).; 5)G. Raos et al., Chain collapse and phase separation in poor-solvent polymer solutions: A unified molecular description, J. Chem. Phys. 104, 1626 (1996).; 6)J.-M. Choi et al., Generalized models for bond percolation transitions of associative polymers, Phys. Rev. E 102, 042403 (2020).; 7)J.-M. Choi et al., LASSI: A lattice model for simulating phase transitions of multivalent proteins, PLoS Comput. Biol. 15, e1007028 (2019).; 8)J. A. Joseph et al., Physics-driven coarse-grained model for biomolecular phase separation with near-quantitative accuracy, Nat. Comput. Sci. 1, 732 (2021).; 9)S. Plimpton et al., Fast Parallel Algorithms for Short-Range Molecular Dynamics, J. Comput. Phys. 117, 1 (1995).; 10)J. A. Anderson et al., General purpose molecular dynamics simulations fully implemented on graphics processing units, J. Comput. Phys. 227, 5342 (2008).; 11)S. J. Marrink et al., The MARTINI Force Field: Coarse Grained Model for Biomolecular Simulations, J. Phys. Chem. B 111, 7812 (2007).; 12)M. R. Machado et al., The SIRAH 2.0 Force Field: Altius, Fortius, Citius, J. Chem. Theory Comput. 15, 2719 (2019).; 13)G. H. Fredrickson et al., Field-Theoretic Computer Simulation Methods for Polymers and Complex Fluids, Macromolecules 35, 16 (2002).; 14)K. T. Delany et al., Recent Developments in Fully Fluctuating Field-Theoretic Simulations of Polymer Melts and Solutions, J. Phys. Chem. B 120, 7615 (2016).; 15)J. McCarty et al., Complete Phase Diagram for Liquid-Liquid Phase Separation of Intrinsically Disordered Proteins, J. Phys. Chem. Lett. 10, 1644 (2019).; 16)D. Nilsson et al., Limitations of field-theory simulation for exploring phase separation: The role of repulsion in a lattice protein model, J. Chem. Phys. 156, 015101 (2022).; 17)M. Hardenberg et al., Widespread occurrence of the droplet state of proteins in the human proteome, Proc. Natl. Acad. Sci. U.S.A. 117, 33254 (2020).; 18)K. L. Saar et al., Learning the molecular grammar of protein condensates from sequence determinants and embeddings, Proc. Natl. Acad. Sci. U.S.A. 118, e2019053118 (2021).; 19)G. van Mierlo et al., Predicting protein condensate formation using machine learning, Cell Rep. 34, 108705 (2021).; 20)X. Chu et al., Prediction of liquid-liquid phase separating proteins using machine learning, BMC Bioinformatics 23 (2022).; 21)R. M. Vernon et al., Pi-Pi contacts are an overlooked protein feature relevant to phase separation, eLife 7, e31486 (2018).; 22)H. Cai et al., An Interpretable Machine-Learning Algorithm to Predict Disordered Protein Phase Separation Based on Biophysical Interactions, Biomolecules 12, 1131 (2022).