AI가 어떻게 작동하는지 만든 사람도 몰랐다고? '딥러닝 이론'의 놀라운 진화

AI Summary

경험과 직관에 의존해 발전해 온 딥러닝 기술이 이제 물리학과 수학의 도움을 받아 그 작동 원리를 완벽히 설명하는 '과학적 이론'으로 거듭나고 있습니다.

여러분, 일상 속의 한 장면을 먼저 상상해보세요. 아침에 일어나 스마트폰의 음성 비서에게 “오늘 오후 회의 자료 좀 요약해서 메일로 보내줘”라고 말합니다. 몇 초 뒤, 사람이 쓴 것처럼 완벽하게 정리된 요약본이 도착하죠. 혹은 병원에서는 인공지능이 베테랑 의사의 눈에도 잘 보이지 않는 미세한 종양을 단숨에 찾아냅니다. 우리는 이미 인공지능이 일종의 ‘마법’처럼 작동하는 시대에 살고 있습니다.

하지만 여기서 정말로 놀라운(그리고 어쩌면 조금은 오싹한) 사실이 하나 있습니다. 인공지능을 만든 천재 엔지니어와 과학자들조차 최근까지 “이 AI가 정확히 왜 이렇게까지 똑똑하고 완벽하게 작동하는지” 그 근본적인 수학적 원리를 명확하게 설명하지 못했다는 것입니다.

오늘날 우리가 아는 인공지능의 핵심인 딥러닝(Deep Learning, 인간의 뇌 구조를 모방한 인공신경망 기반의 기계학습 기법) 기술이 거둔 엄청난 실용적 성공에 비해, 그 행동을 만족스럽게 설명할 수 있는 이론적 발전은 역사적으로 계속 뒤처져 있었습니다 [[On the Information Bottleneck Theory of Deep Learning

OpenReview]](https://openreview.net/forum?id=ry_WPG-A-).

비유하면 이렇습니다. 우리가 세상에서 제일 맛있는 케이크를 굽는 ‘레시피(경험)’는 아주 잘 알고 있지만, 오븐 속에서 밀가루와 설탕이 화학적으로 어떻게 결합하는지에 대한 ‘원리(이론)’는 모르는 채로 거대한 빵집을 운영해 온 것과 같습니다.

하지만 이제 학계의 분위기가 완전히 바뀌고 있습니다. 전 세계의 뛰어난 과학자들이 모여 인공지능의 뇌를 해부하고, 그 작동 원리를 투명하게 설명하는 ‘딥러닝의 과학적 이론(A Scientific Theory of Deep Learning)’을 본격적으로 정립하기 시작했기 때문입니다. 오늘은 고등학생도 이해할 수 있는 쉬운 언어로, 딥러닝이 왜 오랫동안 과학자들에게 미스터리였는지, 그리고 최근 어떻게 그 비밀의 문이 열리고 있는지 알아보겠습니다.

이게 왜 중요한가요? (Why It Matters)

“결과물만 잘 나오면 된 거 아냐? 굳이 그 복잡한 원리까지 수학적으로 알아야 해?”라고 생각하실 수 있습니다. 일상적인 챗봇이라면 그럴지도 모릅니다. 하지만 딥러닝이 우리 삶의 아주 중요한 결정들을 내리기 시작하면서, 원리를 아는 것은 곧 ‘안전’과 ‘신뢰’의 문제가 되었습니다.

오늘날 딥러닝은 단순한 장난감이 아닙니다. 암세포 분류(cancer cell classification), 병변 탐지(lesion detection), 장기 분할(organ segmentation) 및 이미지 품질 개선과 같이 사람의 목숨이 오가는 매우 민감한 의료 분야에서 이미 인간을 뛰어넘는 경쟁력 있는 결과를 보여주고 있습니다 [Deep learning - Wikipedia].

또한, 특정 환경 내에서 행동을 취해 보상(reward)을 극대화하도록 훈련받는 강화학습(Reinforcement learning)에서도 딥러닝은 핵심적인 역할을 합니다 [Introduction to Deep Learning - GeeksforGeeks]. 쉽게 말해서, 마치 자전거를 타면서 넘어지고 일어서기를 반복하며 최적의 균형을 찾는 아이처럼 시행착오를 통해 최적의 행동을 학습하는 인공지능 기법입니다.

이렇게 생명과 직결되는 의료 진단을 내리거나, 거대한 로봇과 자율주행차가 현실 세계에서 직접 행동(Action)을 취할 때, “지금까지 잘 작동했으니까 아마 내일도 잘 작동할 겁니다”라는 단순한 경험적 믿음만으로는 턱없이 부족합니다. 완벽한 수학적 이론이 뒷받침되어야만, 우리는 인공지능이 예상치 못한 특정 돌발 상황에서 절대 치명적인 실수를 하지 않을 것이라고 과학적으로 증명하고 보증할 수 있습니다. 즉, 딥러닝 이론은 AI를 ‘원리를 알 수 없는 위험한 블랙박스’에서 ‘인간이 완벽히 통제 가능한 도구’로 바꾸는 유일한 열쇠입니다.

쉽게 이해하기 (The Explainer): 과학자들을 당황하게 한 딥러닝의 역설

그렇다면 세계 최고의 컴퓨터 과학자들은 딥러닝의 어떤 점을 그토록 이해하기 어려워했을까요? 이를 이해하기 위해서는 전통적인 통계학이 수십 년간 신봉해 온 ‘편향-분산 트레이드오프(Bias-variance tradeoff)’라는 황금 법칙을 알아야 합니다 [[A Theory of Deep Learning

Elements of a Vector Space]](https://elonlit.com/scrivings/a-theory-of-deep-learning/).

당신이 동네 양복점의 재단사라고 상상해보세요. 손님(데이터)들의 체형에 딱 맞는 옷(AI 모델)을 만들어야 하는 임무를 맡았습니다.

너무 대충, 엄청나게 헐렁한 네모난 프리사이즈 티셔츠를 만들면 어떻게 될까요? 아무에게도 예쁘게 맞지 않습니다. 통계학에서는 이처럼 모델이 너무 단순해서 데이터를 제대로 담아내지 못하는 현상을 과소적합(Underfit)이라고 부릅니다.
반대로 한 특정 손님의 몸에 난 미세한 흉터와 1cm 기울어진 비대칭 어깨까지 완벽하게 맞춰서 극도로 정교한 맞춤 정장을 만들면 어떨까요? 그 손님에게는 100점 만점이겠지만, 다른 어떤 새로운 손님도 그 옷을 입을 수 없을 것입니다. 이처럼 모델이 너무 풍부한 표현력(expressive)을 가져서 과거의 훈련용 데이터는 완벽히 외워버리지만, 정작 새로운 데이터에는 엉망진창이 되는 현상을 과적합(Overfit)이라고 부릅니다.

전통적인 고전 통계 학습 이론에서는 이 ‘단순함’과 ‘복잡함’ 사이의 적절한 균형을 맞추는 것이 절대적인 불문율이었습니다 [[A Theory of Deep Learning

Elements of a Vector Space]](https://elonlit.com/scrivings/a-theory-of-deep-learning/).

그런데 ‘딥러닝’이라는 녀석이 등장해서 이 오래된 수학적 규칙을 완전히 산산조각 내버렸습니다. 심층 신경망(Deep neural networks)은 학습해야 할 데이터 포인트의 수보다 수천 배, 수만 배나 더 많은 매개변수(parameters, 인공지능 내부에서 미세하게 조절할 수 있는 수백억 개의 볼륨 다이얼 같은 숫자값)를 가지고 있습니다. 그야말로 ‘과하게 매개변수화된(Overparameterized)’ 상태입니다 [[A Theory of Deep Learning

Elements of a Vector Space]](https://elonlit.com/scrivings/a-theory-of-deep-learning/]. 이건 마치 100점짜리 시험지를 만들기 위해 100만 권의 백과사전을 통째로 외워버리는 것과 같습니다. 고전 이론에 따르면, 이런 무식하게 복잡한 AI는 무조건 ‘과적합’의 늪에 빠져서 한 번도 본 적 없는 새로운 문제를 만나면 바보가 되어버려야 정상입니다.

하지만 현실은 과학자들의 예상을 완전히 비웃었습니다. 엄청나게 복잡한 딥러닝 신경망은 주어진 훈련 데이터를 전부 소화해버릴 만큼 강력하면서도, 동시에 한 번도 본 적 없는 새로운 문제(새로운 환자의 엑스레이, 처음 듣는 질문)에도 척척 정답을 내놓았습니다. 마치 어떤 체형의 손님이 와도 마법처럼 몸에 딱 맞춰 늘어나고 줄어드는 ‘궁극의 스마트 의류’를 만들어낸 셈입니다. 과학자들은 경악했습니다. “도대체 왜 이렇게 복잡한 녀석이 과적합에 빠지지 않고 정답을 내놓는 거지?”

실제로 딥러닝은 데이터를 처리할 때 ‘연속적으로 미분 가능한 활성화 함수(Continuously differentiable activation functions)’라는 것을 사용합니다. 쉽게 말해서, 정보의 흐름이 툭툭 끊기지 않고 부드러운 물결처럼 매끄럽게 흘러가도록 연결해주는 수학적 필터입니다. 이 필터를 통과하면 인공지능은 그 어떤 복잡한 데이터의 형태라도 마치 찰흙처럼 자유자재로 완벽하게 흉내 낼 수 있다는 ‘보편적 근사 정리(Universal approximation theorem)’의 조건을 만족하게 됩니다 [Deep learning - Wikipedia].

이외에도 결과값을 “A일 확률 80%, B일 확률 20%”처럼 예쁘게 나누어주는 ‘소프트맥스(Softmax)’ 계층과 대규모의 정보를 처리할 때 이 방법들이 뛰어난 일관성을 제공한다는 사실들이 하나씩 증명되고 있습니다 [[Deep learning - Wikipedia]](https://en.wikipedia.org/wiki/Deep_learning]. 하지만 여전히 “왜 수백억 개의 다이얼을 돌렸는데도 망가지지 않고 이토록 완벽하게 새로운 문제에 일반화(Generalization)되는가?”에 대한 거대한 수학적 퍼즐은 완전히 맞춰지지 않은 채 남아있었습니다.

현재 상황 (Where We Stand): 물리학과 수학이 구원투수로 등판하다

이 설명되지 않는 인공지능의 기적 앞에서, 컴퓨터 공학자들의 짐을 덜어주기 위해 ‘이론 물리학’과 ‘순수 수학’ 연구자들이 소매를 걷어붙이고 구원투수로 등판했습니다. 최근 학계에서는 놀라울 정도로 새롭고 구체적인 딥러닝 이론들이 쏟아져 나오고 있습니다.

가장 흥미롭고 파격적인 접근법 중 하나는 바로 ‘이론 물리학(Theoretical physics)’의 방식을 빌려오는 것입니다. 입자물리학자들이 눈에 보이지 않는 우주의 수많은 미립자들의 복잡한 움직임을 전체적으로 설명하기 위해 ‘유효 이론(Effective theory)’을 사용하는 것처럼, 수십억 개의 매개변수가 거미줄처럼 얽힌 거대한 신경망을 이해하기 위한 물리적 접근법이 연구되고 있습니다 [The Principles of Deep Learning Theory]. 최근 출판된 한 교재에서는 이러한 시각을 바탕으로, 인공신경망의 미시적인 구성 요소부터 최종 출력의 정확한 설명을 결정하는 방법까지 현실적인 신경망을 거시적으로 이해하는 훌륭한 이론적 틀을 제시하기도 했습니다 [The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks: Roberts, Daniel A., Yaida, Sho, Hanin, Boris: 9781316519332: Amazon.com: Books].

또한, 복잡한 인공지능의 행동을 수학적으로 부드럽게 이어주는 ‘스플라인 함수(Spline functions)’를 활용한 연구도 활발합니다. 건축가가 매끄러운 곡선 지붕을 설계할 때 쓰는 수학적 도구처럼, 이를 통해 깊은 신경망(Deep networks)과 기존의 근사 이론 사이에 엄밀하고 튼튼한 다리를 놓으려는 ‘스플라인 이론(Spline Theory)’이 그 주인공입니다 [A Spline Theory of Deep Learning].

최근 연구자들은 이 모든 역동적인 움직임을 종합하여, 바야흐로 “딥러닝의 과학적 이론(A scientific theory of deep learning)이 부상하고 있다”고 선언하기에 이르렀습니다 [There Will Be a Scientific Theory of Deep Learning]. 이 이론은 단순히 “아마 이럴 것이다”라는 추측이 아니라, 딥러닝 모델의 훈련 과정, 숨겨진 데이터의 표현 방식, 최종적으로 결정되는 가중치(Weights), 그리고 전반적인 성능 등 인공지능의 가장 중요한 속성들을 명확하게 수학적으로 특징짓고 규명하는 것을 목표로 합니다 [There Will Be a Scientific Theory of Deep Learning].

특히 과학자들은 이 거대한 과학적 이론을 완성하기 위해 다음 5가지의 핵심 연구 분야에 온 힘을 쏟고 있습니다 [2604.21691] There Will Be a Scientific Theory of Deep Learning:

해결 가능한 이상적인 환경 (Solvable idealized settings): 거대한 고층 빌딩을 짓기 전에 단순한 장난감 블록으로 먼저 구조를 실험해보듯, 실제 시스템의 학습 방식을 유추할 수 있는 단순화된 모델을 연구합니다.
다루기 쉬운 한계점 (Tractable limits): 변수들을 수학의 극한까지 밀어붙여 보면서, 근본적인 학습 현상의 비밀을 밝혀냅니다.
단순한 수학적 법칙 (Simple mathematical laws): 복잡한 나뭇잎 하나하나에 집착하는 대신, 거대한 숲의 모양을 설명할 수 있는 관찰 기반의 단순한 법칙을 발견합니다.
하이퍼파라미터 이론 (Theories of hyperparameters): 맛있는 요리를 위해 온도와 시간을 완벽하게 공식화하듯, 학습 과정의 설정값을 분리해내어 전체적인 복잡도를 낮추는 연구를 진행합니다.
보편적 행동 패턴 (Universal behaviors): 사과가 떨어지는 것이나 달이 지구를 도는 것이나 똑같은 중력이라는 보편적 법칙이 적용되듯, 여러 다양한 신경망 시스템에서 공통적으로 나타나는 보편적 현상을 규명합니다.

이 5가지의 거대한 퍼즐 조각이 서서히 제자리를 찾아가면서, 우리는 마침내 ‘경험적 마법’을 ‘검증 가능한 과학’으로 번역하는 역사적인 학문적 성취를 목격하고 있는 것입니다.

앞으로 어떻게 될까? (What’s Next): ‘불확실성’까지 계산하는 진정한 지능

그렇다면 이 모든 과학적 이론이 완벽하게 정립된 후, 인공지능의 미래는 어떻게 변할까요? 일상에서 우리가 체감할 수 있는 가장 중요하고 파괴적인 변화 중 하나는 바로 AI가 ‘불확실성(Uncertainty)’을 완벽하게 인지하고 통제하는 능력을 갖추게 된다는 것입니다.

우리는 흔히 컴퓨터나 AI가 언제나 100%의 확신을 가지고 무결점의 답을 낸다고 생각합니다. 하지만 현실 세계의 정보는 늘 노이즈가 끼어있고 불완전합니다. 앞으로의 AI는 확률론적 딥러닝(Probabilistic deep learning) 모델과 심층 신경망을 융합하여, ‘AI 모델 자체가 가지는 한계와 불확실성’은 물론 ‘인간이 입력한 데이터 자체의 불확실성’까지 모두 수학적으로 계산해 내는 방향으로 진화할 것입니다 [A Probabilistic Theory of Deep Learning].

쉽게 말해서, 미래의 의료 AI는 의사에게 단순히 “이것은 종양입니다”라고 확정 지어 말하는 대신 이렇게 대답할 것입니다. “제가 학습한 모델의 수학적 한계와, 현재 촬영된 엑스레이 화질의 불량함(데이터 불확실성)을 모두 종합해 볼 때, 이것이 악성 종양일 확률은 정확히 87.3%입니다. 따라서 확진을 위해선 추가적인 초음파 검사가 반드시 필요합니다.” 즉, AI가 스스로 자신이 ‘무엇을 모르는지’를 인지하고 인간에게 조언하게 되는 것입니다.

중세 시대의 연금술이 근대 화학으로 발전하면서 인류가 플라스틱과 우주선 신소재를 창조할 수 있었던 것처럼, 딥러닝 역시 맹목적인 경험에 의존하던 시대를 지나 가장 견고한 과학적 이론 위에 서게 되었습니다. 내부의 작동 원리를 완벽히 이해하고 통제할 수 있게 된 인공지능이 앞으로 인류의 삶을 얼마나 더 경이롭게, 그리고 안전하게 바꿔놓을지 그 진짜 위대한 변화는 어쩌면 바로 지금부터가 시작일지 모릅니다.

MindTickleBytes AI의 시선 🤖

마치 원시 인류가 불을 먼저 발견해 고기를 구워 먹으면서도, 수백 년이 훌쩍 지나서야 연소의 화학적 원리를 깨달은 것과 비슷합니다. AI 역시 실용적인 성공과 기술의 질주가 수학적 이론을 아득히 앞서갔습니다.

하지만 모래 위에 지은 성은 언젠가 무너지기 마련입니다. 이제 입자물리학과 순수 수학의 엄밀한 언어로 딥러닝의 그 근본 원리를 깨닫는 작금의 과정은, AI를 두려운 ‘신비로운 마법 상자’에서 완벽히 예측하고 통제 가능한 ‘인류 최고의 도구’로 빚어내는 역사적인 변곡점이 될 것입니다. 우리는 지금 21세기의 새로운 과학 혁명이 완성되는 현장의 최전선에 서 있습니다.

참고자료

[[On the Information Bottleneck Theory of Deep Learning OpenReview]](https://openreview.net/forum?id=ry_WPG-A-)
[Deep learning - Wikipedia]
[Introduction to Deep Learning - GeeksforGeeks]
[[A Theory of Deep Learning Elements of a Vector Space]](https://elonlit.com/scrivings/a-theory-of-deep-learning/)
[The Principles of Deep Learning Theory]
[The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks: Roberts, Daniel A., Yaida, Sho, Hanin, Boris: 9781316519332: Amazon.com: Books]
[A Spline Theory of Deep Learning]
[There Will Be a Scientific Theory of Deep Learning]
[2604.21691] There Will Be a Scientific Theory of Deep Learning
[A Probabilistic Theory of Deep Learning]

Share this article:

이 글을 얼마나 이해했나요?

Q1. 전통적인 통계학의 '편향-분산 트레이드오프' 원리에 따르면, 모델이 데이터보다 너무 많은 매개변수(조절 가능한 숫자값)를 가지면 어떤 현상이 발생해야 정상인가요?

과소적합(Underfitting)
과적합(Overfitting)
보편적 근사(Universal approximation)

전통적인 통계 학습 이론에 따르면 모델이 너무 단순하면 과소적합이, 너무 복잡하고 표현력이 높으면 데이터를 과하게 외워버리는 과적합(Overfitting)이 발생합니다.

Q2. 최근 딥러닝 이론을 설명하기 위해 과학자들이 차용하고 있는 학문 분야는 무엇인가요?

이론 물리학(Theoretical physics)
양자 역학(Quantum mechanics)
고전 생물학(Classical biology)

최근 과학자들은 딥러닝 모델의 작동 원리를 설명하기 위해 이론 물리학의 개념과 접근법을 빌려오고 있습니다.

Q3. 다음 중 '확률론적 딥러닝(Probabilistic deep learning)'이 주로 다루고자 하는 핵심 요소는 무엇인가요?

계산 속도의 극대화
불확실성(Uncertainty)의 설명
시각적 디자인의 개선

확률론적 딥러닝은 모델 자체의 불확실성과 데이터의 불확실성을 모두 설명하고 고려하는 분야입니다.