특집
인공태양, 인공지능에서 답을 찾다
딥 러닝과 KSTAR 초전도 자석
작성자 : 권기일·이현정 ㅣ 등록일 : 2022-03-28 ㅣ 조회수 : 1,962 ㅣ DOI : 10.3938/PhiT.31.012
권기일 박사는 2014년 한국과학기술원에서 로봇학제전공으로 이학 박사 학위를 취득했고, 2014년부터 한국핵융합에너지연구원에서 선임기술원으로 재직 중이다. 핵융합 장치를 위한 실시간 데이터 처리 시스템과 핵융합 데이터 분석을 위한 기계학습 및 딥 러닝에 관한 연구를 수행하고 있다. (giilkwon@kfe.re.kr)
이현정 박사는 2003년 경북대학교 물리학과에서 이학박사 학위를 취득했고, 2006년부터 한국핵융합에너지연구원에서 책임연구원으로 재직 중이다. 초전도 자석 및 극저온 시스템 설계 및 개발에 관한 연구를 수행하고 있다. (yaeban@kfe.re.kr)
Deep Learning and KSTAR Superconducting Magnet
Giil KWON and Hyunjung LEE
Deep learning is a kind of machine learning method that trains artificial neural networks imitating human brain biological models using huge data. It enables a computer to do intelligent tasks such as voice recognition, image recognition instead of humans. Currently, deep learning is attracting a lot of attention as it solves the limitations of artificial neural networks, accelerates computation through hardware development, and generates a large amount of high-quality data that can be learned due to the development of IT technology. In this article, We will look into how artificial intelligence and machine learning, which is the basis of deep learning, have developed and, accordingly, how deep learning has developed to the present day. And we will briefly introduce representative deep learning methods using widely.
들어가며
딥 러닝은 인간의 뇌의 생물학적 모형을 모방한 인공신경망 모델을 많은 데이터로 학습하여 인간을 대신하여 음성인식, 영상인식 등의 지능적인 작업들을 수행할 수 있도록 하는 기계 학습의 기법이다. 딥 러닝은 현대에 와서 기존의 인공신경망 모델의 한계점이 극복되고 하드웨어의 발전에 따라 연산 속도가 빨라지며 그리고 IT 기술에 따라 학습 가능한 많은 데이터가 생산되면서 많은 주목을 받고 있다. 본 기고문에서는 딥 러닝의 기반이 되는 인공지능과 기계 학습이 어떻게 발전되어 왔고 이에 따라 딥 러닝이 현재에 이르기까지 어떻게 발전해왔는지 알아보고 많이 사용되는 대표적인 딥 러닝 기법들을 간략하게 소개하겠다.
딥 러닝 발전사
인공지능은 1940년대에 기계에 인간과 같은 지능을 부여하고자 시작되었다. 인공지능은 기계가 사람의 지능을 모방하기 위한 기술이다. 이 인공지능의 한 분야로 기계 학습이 있다. 기계 학습은 사람이 일일이 프로그램하지 않고 주어진 데이터로부터 자동으로 학습하여 예측 모형을 개발하는 인공지능의 한 분야이다. 기계 학습은 지도 학습, 비 지도 학습, 강화 학습 등으로 나뉘며 대표적인 기법은 인공신경망, 서포트 벡터 머신(Support Vector Machine, SVM) 등이 있다. 기계 학습은 어떠한 데이터가 있을 때 컴퓨터가 이해할 수 있는 형태로 데이터를 표현하고 이를 우리가 원하는 결과를 가져올 수 있도록 학습을 하기 위해 많은 연구가 진행되고 있다. 딥 러닝은 기계 학습에서 인공신경망을 기반으로 한 기법 중의 하나이다. 딥 러닝은 기존의 기계 학습에 비해 많은 양의 데이터를 사용한다. 그리고 기존의 기계 학습이 데이터를 컴퓨터가 이해하기 쉽도록 표현하기 위해 연구자의 지식에 의해 만들어진 데이터 표현 방법을 사용한 반면 딥 러닝은 데이터를 학습함에 따라 자동으로 데이터 표현 방법을 만들고 학습한다는 차이점이 있다. 이에 따라 기존의 기계 학습에 비해 딥 러닝은 데이터를 학습하는 시간과 연산량이 많이 필요하지만 좀 더 복잡한 데이터를 정확하게 학습이 가능하다는 장점이 있다. 이러한 장점이 있기 때문에 딥 러닝은 현재 많은 연구가 진행되고 있다.
딥 러닝의 부모 격인 인공신경망은 1940~1960년대 연구된 퍼셉트론(perceptron)부터 시작되어 연구가 진행되어 왔다. 주요 목적은 생물학적인 뇌의 모형을 모방하기 위해 시작되었고 현재의 딥 러닝에 비하면 매우 단순한 구조를 가졌다. 퍼셉트론은 XOR 연산을 하지 못한다는 한계로 1969년 잠시 침체기를 겪었다가 1986년 다층 퍼셉트론의 개발로 다시 부흥기를 맞이하게 된다. 여러 개의 층으로 이루어진 다층 퍼셉트론은 기존 퍼셉트론의 한계인 XOR 문제를 해결했다. 이 시기에 딥 러닝도 이 기술들을 기반으로 개발되었다.
딥 러닝은 1998년 얀 르쿤이 오류 역전파 알고리즘에 기반하여 우편번호를 인식하는 딥 뉴럴 네트워크(Deep Neural Network, DNN)2)를 개발한 것으로부터 연구되기 시작했다. 얀 르쿤의 DNN은 성공적으로 동작했다. 하지만 Vanishing Gradient 문제, Overfitting 문제 등에 의해 학습 시간이 너무 오래 걸리거나 학습이 제대로 이루어지지 않는 등의 문제가 제기되어 다시 딥 러닝에 대한 관심은 멀어졌다.
그 후 수학적 모델에 기본을 둔 기계 학습의 한 기법인 SVM4)이 주목받아 연구되다가 2000년대 기존의 인공신경망의 문제들을 일부 해결한 기법, Unsupervised Restricted Boltzmann Machine (RBM)5)이 제프리 힌튼에 의해 소개되면서 다시 딥 러닝이 주목을 받게 되었다. 추후 2010년 제프리 힌튼 교수는 Vanishing Gradient 문제를 해결하기 위한 Relu6) 기법과 2012년도에는 Dropout7) 정규화 기법을 제시하여 딥 러닝을 더 발전시켰다. 2012년도에는 기존 인공신경망의 고질적인 문제들이 대부분 해결되고 기술의 발전에 따른 데이터의 증가 및 하드웨어 연산 속도의 증가로 딥 러닝이 크게 발전하게 된다. 특히 딥 러닝의 기법인 Convolutional Neural Network (CNN)과 Recurrent Neural Network (RNN)이 크게 발전했다.
CNN은 영상 처리를 위해 고안된 다층 신경망으로 컨볼루션 연산 과정과 서브 샘플링으로 데이터의 특징을 파악하고 패턴을 파악하여 학습하는 방식이다. CNN을 기반으로 여러 모델들이 개발되었는데 대표적인 모델은 AlexNet,8) VGGNet,9) GoogleNet,10) ResNet,11) DenseNet12) 등이 있다.
Fig. 7. Transformer model.17)
RNN은 뉴런을 순환 구조로 배치하여 과거의 정보를 이용할 수 있도록 한 인공신경망으로 순차적으로 들어오는 데이터를 학습하는데 용이하도록 고안된 신경망이다. 주로 자연어 학습에 많이 사용되었다. 대표적인 모델은 Long Short Term Memory models(LSTM)14)과 Gated Recurrent Unit (GRU)15) 등이 있다. RNN의 경우 순차적 데이터를 학습할 수 있기 때문에 자연어 처리 분야에서 많이 사용되어져 왔다. Seq2seq16)이라는 RNN 기반의 입력 시퀀스에서 출력 시퀀스를 학습하는 기법이 만들어지고 연구되어졌다. 하지만 데이터의 인과관계가 멀리 떨어져 있을 경우 그 관계는 학습되지 않았거나 데이터가 일부 손실되는 문제가 있었다. 이 때문에 자연어 처리 시 문장이 길어지면 잘 학습하지 못하는 문제가 있었다.
이를 보완하고자 Attention이라는 개념이 도입되었다. 각 입력된 데이터들 중에 특정 데이터들(즉 인과관계가 있는 데이터들)을 좀 더 집중하도록 하는 것이다. Attention 개념을 이용하여 Transformer17)라는 기법이 2017년도에 소개되었다. 기존의 RNN 모델 없이 순차적으로 들어오는 데이터를 학습하는 모델이다. Self-attention이라는 기법을 사용하여 순차적으로 들어온 데이터 내의 중요도 또는 집중을 계산하여 사용하는 방식이다.
기존의 기법들에 비해 월등한 성능을 보여주어 현재까지 사용되고 있다. 대표적인 모델로는 Bidirectional Encoder Representations from Transformers (BERT),18) Generative Pre-trained Transformer (GPT3)19)가 있다.
Transformer는 자연어 처리 분야에서만 사용되다가 현재에는 2012년에 영상인식 분야에 Visual Transformer (ViT)20)가 소개되어 많은 연구가 진행되고 있다.
KSTAR 초전도 자석의 운전데이타를 기반한 딥 러닝 학습 데이터 셋 연구
초전도 자석의 온도는 운전전류 및 초임계 헬륨의 유량, 온도 등에 의해 결정되지만, 냉각 경로들이 복잡하게 얽혀 있고, 30개의 초전도 자석들이 서로 영향을 미치기 때문에 초전도 자석의 정확한 온도를 예측하기 쉽지 않다. KSTAR는 10여 년 이상의 방대한 데이터를 가지고 있기 때문에 딥 러닝을 이용하여, KSTAR 초전도 자석의 온도를 예측하여, KSTAR 초전도 자석의 안정성을 확보하고, 더 나아가 다양한 플라즈마 시나리오에 대한 확인이 가능하다. 플라즈마 실험 시 초전도 자석의 온도 상승 경향을 파악하기 위하여 2018년도 총 633번의 실험에서 Poloidal Field (PF) 초전도 온도 데이터를 1초 단위로 interpolate하여 초전도 자석의 온도 데이터를 100 단위 시간 동안 학습하고 100 단위 시간 값을 입력으로 받았을 때 다음 단위 시간 값을 예측하도록 학습했다.
학습 성능을 비교하기 위해 딥 러닝에서 많이 사용되는 LSTM 모델과 입력의 길이가 100인 Transformer 모델을 온도 데이터 학습 후 비교했다. 그림 10에서 파란색은 원래 데이터이고 빨간색이 한 단위 시간 예측 데이터이고 초록색이 예측값과 원래 값의 차이 데이터이다.
온도 예측 결과는 아래 표와 같다. 정량적인 수치는 입력 길이가 100인 Recurrent Transformer가 모든 지표가 좋은 값을 가지거나 일반 Transformer와 비슷한 성능을 가졌다. 그리고 입력 길이가 1인 Recurrent Transformer 또한 LSTM보다 좋은 성능치를 가진 것을 확인할 수 있었다.
R2 score | Quantile score (P10/P50/P90) | |
---|---|---|
LSTM | 0.9916 | (0.0024/0.0024/0.0024) |
Transformer (2layer, seq100) | 0.9992 | (0.0019/0.0014/0.0009) |
Recurrent Transformer (seq100) | 0.9992 | (0.0009/0.0006/0.0003) |
맺음말
딥 러닝은 인공지능의 한 분야로서 인간의 뇌구조를 모방한 인공신경망을 많은 데이터로 학습하는 기계학습의 한 분야이다. 기존의 인공신경망의 한계점을 극복하고 하드웨어의 발달과 학습시킬 수 있는 대량으로 생산되는 디지털 데이터로 인해 많은 발전이 되고 있다. 2010년대부터 CNN과 RNN, Transformer 등의 딥 러닝 모델들이 개발되었고 이 모델들을 기반으로 빠르게 더 좋은 성능을 내도록 하는 연구와 개발된 딥 러닝 기법을 각 분야에 적용하는 연구가 전 세계적으로 매우 빠르게 진행되고 있다. 본 기고문에서는 과거부터 현재까지의 딥 러닝 기술의 발전 과정을 간략하게 소개했다. 이를 바탕으로 앞으로 발전될 딥 러닝의 연구를 진행해 간다면 빠르게 변화하는 딥 러닝 기술에 잘 적응할 수 있을 것이라 예상한다.
- 각주
- 1)http://cs231n.stanford.edu/slides/2021/lecture_4.pdf.
- 2)Y. LeCun, L. Bottou, Y. Bengio and P. Haffner, Proceedings of the IEEE 86(11), 2278 (1998).
- 3)https://en.wikipedia.org/wiki/Support-vector_machine.
- 4)C. Cortes and V. Vapnik, Machine Learning 20(3), 273 (1995).
- 5)G. E. Hinton and R. R. Salakhutdinov, Science 313, 504 (2006).
- 6)V. Nair and G. E. Hinton, Rectified linear units improve restricted boltzmannmachines. In Icml (2010, January).
- 7)N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever and R. Salakhutdinov, The Journal of Machine Learning Research 15(1), 1929 (2014).
- 8)A. Krizhevsky, I. Sutskever and G. E. Hinton, Advances in neural information processing systems 25, 1097 (2012).
- 9)K. Simonyan and A. Zisserman, Very deep convolutional networks for large-scale image recognition, arXivpreprint arXiv: 1409.1556 (2014).
- 10)C. Szegedy et al., Going deeper with convolutions, In Proceedings of the IEEE conference on computer vision and pattern recognition (2015), pp.1-9.
- 11)K. He, X. Zhang, S. Ren and J. Sun, Deep residual learning for image recognition, In Proceedings of the IEEE conference on computer vision and pattern recognition (2016), pp. 770-778.
- 12)G. Huang, Z. Liu, L. Van Der Maaten and K. Q. Weinberger, Densely connected convolutional networks, In Proceedings of the IEEE conference on computer vision and pattern recognition (2017), pp.4700-4708.
- 13)https://colah.github.io/posts/2015-08-Understanding-LSTMs/.
- 14)S. Hochreiter and J. Schmidhuber, Neural Computation 9(8), 1735 (1997).
- 15)J. Chung, C. Gulcehre, K. Cho and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXivpreprint arXiv:1412.3555 (2014).
- 16)I. Sutskever, O. Vinyals and Q. V. Le, Sequence to sequence learning with neural networks, In Advances in neural information processing systems (2014), pp.3104-3112.
- 17)A. Vaswani et al., Attention is all you need, In Advances in neural information processing systems (2017), pp.5998-6008.
- 18)J. Devlin, M. W. Chang, K. Lee and K. Toutanova, BERT: Pre-training of deep bidirectional transformers for language understanding, arXivpreprint arXiv:1810.04805 (2018).
- 19)A. Radford, K. Narasimhan, T. Salimans and I. Sutskever, Improving language understanding by generative pre-training (2018).
- 20)A. Dosovitskiy et al., An image is worth 16x16 words: Transformers for image recognition at scale, arXivpreprint arXiv:2010.11929 (2020).