본문바로가기


지난호





|

PHYSICS PLAZA

크로스로드

폭발적 인간동역학, 끝날 때까지 끝나지 않는 시계열에 대하여

작성자 : 조항현 ㅣ 등록일 : 2021-09-08 ㅣ 조회수 : 1,644

저자약력

조항현 교수는 카이스트 물리학과에서 박사학위를 받은 이후 한국고등과학원, 핀란드 알토대학교, 포항공과대학교, 아시아태평양이론물리센터를 거쳐 현재 가톨릭대학교 물리학과 교수로 재직 중이다. 주로 통계물리학, 복잡계, 연결망 과학을 연구한다.

우리의 인생은 끊임 없이 벌어지는 다양한 사건들로 채워져 있다. 기쁘고 흥분되는 일들부터 슬프고 비극적인 일들까지, 인생을 뒤바꿀 매우 중요한 일들부터 그 누구에게도 영향을 미치지 않을 것 같은 사소한 일들까지, 온갖 사건이 일어났고 일어나고 있고 앞으로도 일어날 것이다. 한 사람이 태어나서 죽을 때까지 벌어지는 사건들을 하나도 빠짐 없이 1차원 직선 위에 기록하는 상상을 해보자. 아니면 요즘 사회연결망서비스의 타임라인을 떠올려도 좋다. 어쨌든 아마도 매우 긴 직선이 필요할 것이다. 여기서 직선은 시간축을 뜻한다. 각 사건은 그 사건이 일어난 시각 또는 타이밍에 기록하면 된다. 이런 기록을 우리는 시계열이라 부른다.

그림 2. 스티븐 와인버그(좌), 프리머 존 다이슨(우).(출처: 위키피디아)

우리의 인생뿐 아니라 연구자들이 연구 대상으로 삼는 다양한 현상에 대해서도 시계열을 얻을 수 있다. 가장 먼저 떠오르는 예는 지진이다. 언제 어디서 얼마나 큰 규모의 지진이 일어났는지가 기록되어 있는 데이터가 있다. 이외에도 신경망 속 신경세포가 일정한 전위에 도달하면 발화하는 시각을 모은 시계열, 사람의 심장 박동 시계열, 사람들 사이의 이메일 교환 또는 핸드폰 통화 시계열 등이 떠오른다. 이러한 시계열을 체계적으로 분석하여 그 특징을 밝혀내고 더 나아가 그 시계열의 미래를 예측하고자 하는 연구는 매우 많다. 그만큼 시계열 분석은 중요한 연구 주제다. 내 연구분야인 통계물리학이나 복잡계 연구에서도 예외는 아니다.

하늘 아래 새로운 것은 없다. 다만 새로운 방법론이나 새로운 데이터가 조합되어 새로운 연구 분야로 재탄생하곤 한다. 이 글에서는 최근 새롭게 떠오른 폭발적 인간동역학(bursty human dynamics)이라 부르는 주제를 소개하려고 한다.1) 이는 기껏해야 20년도 안 된 새롭다면 새로운 주제인데 나도 어쩌다보니 10여 년째 관심을 가지고 연구하고 있다.

폭발적 인간동역학은 알버트-라즐로 바라바시가 발표한 2005년 <네이처> 논문에서 시작되었다.2) 바라바시는 미국의 한 대학교에서 수집된 이메일 데이터를 분석했다. 데이터에는 대학교 구성원들 사이에 오고간 이메일의 발신자와 수신자(익명 처리되어 누구인지 알 수는 없다), 발신된 시각 등이 포함되어 있다. 여기서는 이메일을 받거나 보내는 일이 하나의 사건이 된다. 각 이메일 사용자의 사건들을 시간축에 표시하면 시계열이 얻어지는데 이를 분석한 것이다.

바라바시는 이 시계열로부터 사건 사이 시간이라는 양을 계산했다. 한 사건이 일어나고나서 다음 번 사건이 일어날 때까지 걸린 시간으로 사건 사이 시간을 정의한다. 예를 들어 100개의 사건이 시간축 위에 표시되어 있다면 99개의 사건 사이 시간이 얻어질 것이다. 이 사건 사이 시간의 통계적 특징이 이 이메일 사용자의 이메일 사용 패턴을 분석하는 기초가 된다. 바라바시는 대부분의 사건 사이 시간은 몇 초나 몇 분 정도로 매우 짧다는 것을 발견했다. 하지만 적지 않은 수의 사건 사이 시간은 몇 시간이나 며칠까지 매우 길다는 것도 발견했다. 매번 이렇게 길게 말하기 힘드니까 이런 경우를 우리는 사건 사이 시간이 ‘두꺼운 꼬리를 갖는 분포’를 따른다고 부른다. 이런 시계열에서 사건들은 짧은 시간 동안 폭발적으로(bursty) 일어나지만 그 짧은 기간이 지나면 오랜 시간 동안 사건이 일어나지 않다가 다시 짧지만 폭발적인 기간이 나타나기를 반복한다.

두꺼운 꼬리를 갖는 분포도 여러 종류가 있는데 그중에서도 물리학자들이 많은 관심을 보이는 분포로 거듭제곱 분포와 로그정규분포가 있다. 거듭제곱 분포는 분포의 모양이 거듭제곱 꼴을 가지기 때문에 붙여진 이름이다. 수식은 생략한다. 거듭제곱 꼴은 통계물리학의 전통적 연구주제인 상전이와 임계현상에서 다뤄지는 매우 중요한 함수형태다. 그렇다보니 통계물리학자들은 사회현상 데이터에서도 거듭제곱 꼴을 찾아내는데 아주(너무?) 능숙하다. 바라바시도 이메일 데이터에서 얻어진 사건 사이 시간의 분포가 거듭제곱 분포라고 주장했다.

그런데 지지자가 많아지면 반대자도 많아지기 마련이다. 통계적 검증을 제대로 하지도 않고 대충 거듭제곱 꼴이라고 주장하는 연구가 많아지면서 그 반대자들도 많아졌다. 루이스 아마랄이 이끄는 연구그룹은 바라바시가 분석한 똑같은 데이터에 통계적 검증 방법을 적용했다. 그 결과 이메일 데이터의 사건 사이 시간은 거듭제곱 분포가 아니라 로그정규분포를 따른다고 주장했다.3) 사실을 말하자면, 로그정규분포의 꼬리 부분은 거듭제곱 분포의 특수한 경우와 비슷하게 생겨서 헷갈리기 쉽다. 그리고 로그정규분포가 거듭제곱 분포를 반대하기 위해 제시된 건 물론 아니다.

어떤 데이터가 거듭제곱 분포인지 로그정규분포인지를 따지는 일은 왜 중요한가? 사람과 나무의 생김새는 무척 다르다. 그래서 우리는 사람의 유전자와 나무의 유전자는 매우 다를 것이라고 기대한다. 하지만 사람과 매우 비슷하게 생긴 나무가 있다면 사람과 나무의 유전자가 비슷할 것이라고 기대하지 않을까. 마찬가지로 우리는 거듭제곱 분포를 보이는 현상에 작동하는 원리는 로그정규분포를 보이는 현상에 작동하는 원리와 다를 것으로 기대한다. 이제 그 작동 원리에 대해 얘기해보자.

바라바시는 앞서 말한 <네이처> 논문에서 거듭제곱 분포를 따르는 사건 사이 시간을 설명하기 위해 우선권을 갖는 기다림 모형을 제시했다. 풀어서 말하자면, 이메일 사용자들에게 이메일 쓰기는 하나의 일이며 각 일에는 우선 순위가 부여되어 있다고 가정한다. 또한 사용자들이 우선 순위가 높은 일부터 처리하는 행동 규칙을 따른다고 가정했다. 바라바시는 컴퓨터 시뮬레이션과 간단한 수학적 계산을 통해 이 모형의 결과로서 사건 사이 시간이 거듭제곱 분포를 따른다는 것을 보였다.

그에 반해 아마랄 그룹은 2008년에 출판된 <미국국립과학원회보> 논문에서 이메일 사용자들의 주기적 행동 패턴에 주목했다.4) 이메일 사용자들도 사람이므로 대체로 밤에는 자고 낮에 일한다. 또한 대체로 주말에는 쉬고 주중에 일한다. 데이터가 수집된 2000년대 초반에는 아직 핸드폰으로 이메일을 주고받는 일이 드물었고 이메일은 주로 컴퓨터를 이용했다는 것을 떠올리자. 아마랄 그룹은 이런 생각에 기반한 모형을 제시했고 모형의 결과가 데이터와 잘 맞는다는 것을 보였다.

바라바시의 <네이처> 논문을 시작으로 바라바시 그룹과 아마랄 그룹은 이 주제로 2005년부터 대략 2009년까지 여러 논문을 통해 논쟁을 벌였다. 그래서 결론이 뭐냐면… 사실 둘 다 맞다고 하는 게 정답일 것이다. 이메일뿐만 아니라 일반적으로도 사람들이 우선 순위가 높은 일부터 처리하는 것도 사실이고 밤에는 자고 낮에 일하는 것도 사실이다. 다만 어떤 요인이 더 중요한 요인인지와 같은 문제는 여전히 남아 있다.

바라바시 그룹과 아마랄 그룹의 논쟁이 한창이던 때 나는 다른 주제를 연구하느라 관심을 기울이지 못했다. 그러다가 2010년에 새로운 연구 주제를 찾던 중 이 논쟁이 있었다는 것을 알게 되었다. 관련된 논문들을 찾아 읽은 후에 내가 떠올린 질문은 이것이다: 아마랄 그룹의 주장대로 사람의 일간 및 주간 주기적 패턴이 사건 사이 시간의 두꺼운 꼬리 분포에 미치는 영향은 분명 중요하지만 그게 전부일까? 그런 주기적 패턴을 시계열에서 ‘제거’한 후에도 사건 사이 시간의 분포는 여전히 두꺼운 꼬리를 가질까, 아니면 완전히 사라질까?

마침 그때 나는 유럽의 한 통신사로부터 연구용으로 제공된 핸드폰 통화 데이터에 접근할 기회가 있었다. 각 핸드폰 사용자의 통화 시계열로부터 사건 사이 시간 분포를 먼저 계산했고 대부분의 사용자들의 경우 두꺼운 꼬리를 갖는다는 것을 확인했다. 다음으로 각 사용자의 통화 패턴에서 주기적 패턴을 추출하여 이 주기적 패턴을 시계열에서 제거했다. 주기적 패턴이 제거된 시계열로부터 사건 사이 시간의 분포를 계산해보니 여전히 두꺼운 꼬리가 남아 있다는 것을 확인할 수 있었다. 다시 말하면, 대부분의 경우 주기적 패턴이 핸드폰 통화 시계열의 폭발성을 100% 설명하지 못한다. 그럼 그 나머지를 설명하기 위해서 우리는 다른 다양한 요인을 고려해봐야 한다. 그중 하나가 바라바시가 주장했던, 일에 우선 순위를 부여하고 그에 따라 일을 선택하는 행동 규칙일 수도 있다. 나와 공동연구자들의 이 연구 결과는 우여곡절 끝에 2012년에 <뉴저널오브피직스>에 게재되었다.5)

그로부터 10년 정도가 지났다. 그동안 사건 사이 시간 분포를 넘어선 더 정교한 분석 방법들이 개발되었고 훨씬 더 많은 데이터들이 분석되었으며 어떤 시계열이 더 폭발적이냐 덜 폭발적이냐를 넘어선 더 큰 시야에서 더 다양한 질문들이 연구되었다. 우리 인생의 시계열도 우리가 태어난 순간 시작되어 죽을 때까지 계속 이어지는 것처럼, 어느날 탄생한 연구 주제의 시계열도 끝날 때까지 계속 이어지기 마련이다. 여기서 사건은 새로운 연구결과일 것이다. 사실 (반올림해서) 거의 20년이나 지났는데도, 아니 20년밖에 되지 않았기 때문에 아직도 모르는 게 많다. 폭발적 인간동역학의 시계열에 하나의 새로운 사건을 만들기 위해 이 분야의 연구자들은 오늘도 세계 곳곳에서 폭발적으로 연구하고 있을 거라 믿는다.


*아태이론물리센터의 <크로스로드>지와의 상호 협약에 따라 크로스로드에 게재되는 원고를 본 칼럼에 게재합니다. 본 원고의 저작권은 아태이론물리센터와 원저작자에게 있습니다.
*‘과학과 미래 그리고 인류’를 목표로 한 <크로스로드>는 과학 특집, 과학 에세이, 과학 유머, 과학 소설, 과학 만화 등 다양한 장르의 과학 글을 통해 미래의 과학적 비전을 보여주고자 아시아 태평양 이론물리센터(Asia Pacific Center for Theoretical Physics)에서 창간한 과학 웹 저널입니다.
http://crossroads.apctp.org/
*아시아태평양이론물리센터는 정부의 과학기술진흥기금 및 복권기금 지원으로 사회적 가치 제고에 힘쓰고 있습니다.
각주
1)M. Karsai, H.-H. Jo and K. Kaski, Bursty Human Dynamics (Springer International Publishing, 2018).
2)A.-L. Barabasi, Nature 435, 207 (2005).
3)D. B. Stouffer, R. D. Malmgren and L. A. N. Amaral, “Comment on The origin of bursts and heavy tails in human dynamics”, arXiv:physics/0510216 (2005).
4)R. D. Malmgren, D. B. Stouffer, A. E. Motter and L. A. N. Amaral, PNAS 105, 18153 (2008).
5)H.-H. Jo, M. Karsai, J. Kertesz and K. Kaski, New Journal of Physics 14, 013055 (2012).
물리대회물리대회
사이언스타임즈사이언스타임즈


페이지 맨 위로 이동