Deep DiveMathematics & StatisticsMachine/Deep Learning
The Generalization Puzzle: Why Overparameterized Neural Networks Don't Overfit
Classical statistics says a model with more parameters than data points should memorize training data and fail on new data. Modern neural networks violate this prediction spectacularlyโgeneralizing well despite massive overparameterization. Four 2025 papers advance our theoretical understanding of why.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Classical statistical learning theory makes a clear prediction: a model with more parameters than training examples will memorize the training data perfectly but fail catastrophically on new data. This prediction is well-foundedโit follows from the bias-variance tradeoff, VC dimension bounds, and PAC learning theory that have guided statistical practice for decades.
Modern deep neural networks violate this prediction routinely. A language model with billions of parameters, trained on a dataset of millions of examples, generalizes to new text it has never seen. A vision model with hundreds of millions of parameters, trained on a million images, correctly classifies novel photographs. The parameter-to-data ratio wildly exceeds the thresholds where classical theory predicts catastrophic overfittingโyet the models work.
Understanding why they work is not merely an intellectual curiosity. It determines whether deep learning's success is a fortunate accident that will eventually fail, or a reflection of deeper mathematical structure that we can rely on and extend. The 2025 research on this question makes progress on four fronts.
Implicit Bias: The Hidden Regularizer
The leading explanation for overparameterized generalization is implicit bias: the optimization algorithm (gradient descent and its variants) does not simply find any solution that fits the training dataโit finds a specific solution that, among all solutions with zero training error, has properties that promote generalization.
Matt & Stรถger provide the most precise characterization to date for a simplified setting: overparameterized linear neural networks (multiple linear layers composed in sequence, no nonlinearities). They prove tight upper and lower bounds on the implicit regularization effect of gradient descent, showing that it implicitly favors solutions with small โโ normโthe same property that explicit โโ regularization (Lasso) imposes.
This is remarkable because no regularization term is added to the loss function. The implicit โโ bias arises purely from the interaction between the network's layered architecture and the gradient descent dynamics. The layered structureโeven without nonlinearityโintroduces a geometric bias in the optimization landscape that gradient descent exploits.
Spectral Bias: Low Frequencies First
Sahs et al. explore a complementary mechanism: spectral biasโthe tendency of neural networks to learn low-frequency components of the target function before high-frequency components. This bias acts as implicit regularization because low-frequency functions are smoother and more likely to generalize, while high-frequency functions are more likely to represent noise.
Their contribution is showing that the choice of activation function shapes the spectral bias. Different nonlinearities (ReLU, sigmoid, GELU, sine) produce different frequency learning priorities. ReLU networks, for instance, favor piecewise-linear functions (low effective frequency), while sine-activated networks can learn high-frequency components more readily.
The practical implication: the activation function is not just an architectural choice for computational convenienceโit is a regularization choice that determines which functions the network can easily learn and which it suppresses.
Region Counting: A Geometric Perspective
Li et al. propose a geometric characterization of implicit bias: the number of connected regions that the network's decision boundary creates in input space. A network that carves input space into many small regions is more complex (and more likely to overfit) than one that creates fewer, larger regions.
They prove that gradient descent, for certain architectures, converges to solutions with near-minimal region countsโproviding a concrete, geometric explanation for why the learned function is simple (generalizes well) even though the network has the capacity to be arbitrarily complex.
Provable Bounds Beyond Classical Theory
Dhingra provides a survey and extension of provable generalization bounds for overparameterized networks. The key insight: classical bounds (VC dimension, Rademacher complexity) become vacuous (predict generalization error > 1) in the overparameterized regime because they depend on the number of parameters without accounting for the constraints that gradient descent imposes.
Newer boundsโnorm-based, PAC-Bayes, compression-basedโincorporate information about the specific solution found by gradient descent, producing non-vacuous generalization estimates. These bounds, while still loose, correctly predict the qualitative behavior observed in practice: generalization improves as networks grow wider (more parameters per layer) even though classical theory predicts the opposite.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Classical statistical theory predicts overparameterized overfitting | VC dimension, bias-variance tradeoff | โ
Classical prediction |
| Modern neural networks violate this prediction | Empirical observation across many domains | โ
Well-documented |
| Implicit โโ regularization explains generalization in linear networks | Matt & Stรถger: tight bounds proven | โ
Proven (linear case) |
| Spectral bias provides implicit regularization | Sahs et al.: activation-dependent frequency learning priority | โ
Supported |
| Region counting characterizes implicit bias geometrically | Li et al.: minimal region convergence demonstrated | โ
Supported |
| Current theory fully explains deep learning generalization | Gaps remain between theory (linear/shallow) and practice (deep nonlinear) | โ Partial understanding |
Open Questions
Deep nonlinear networks: Most theoretical results apply to linear networks, shallow networks, or simplified architectures. Can the insights transfer to the deep, nonlinear, attention-based architectures that dominate practice?Transformers specifically: The generalization properties of Transformer architectures (attention mechanisms, positional encodings, layer normalization) are poorly understood theoretically. Is there Transformer-specific implicit bias?Double descent: The "double descent" phenomenonโwhere generalization improves after interpolation of training dataโremains poorly explained by existing theory. Can implicit bias theory account for double descent?Practical implications: Does understanding implicit bias suggest better architectures or training methods? If gradient descent implicitly regularizes, can we design architectures that enhance this implicit regularization?Fine-tuning dynamics: When a pre-trained model is fine-tuned on a small dataset, the implicit bias of fine-tuning may differ from that of training from scratch. How does the pre-trained initialization affect the implicit bias of subsequent optimization?What This Means for Your Research
For ML theorists, the generalization puzzle remains the central open problem in deep learning theory. The 2025 results make meaningful progressโparticularly in characterizing implicit bias for specific architecturesโbut the gap between theory and practice motivates continued investment.
For practitioners, the practical takeaway is that the choice of architecture and optimizer is itself a form of regularization. Activation functions, layer widths, learning rates, and training schedules all influence the implicit bias and therefore the generalization properties of the trained model. Understanding these effects enables more principled model design.
For statisticians trained in classical theory, the overparameterization puzzle is an invitation to extend the foundations of learning theory. The classical frameworks are not wrongโthey are incomplete. Incorporating the structure of gradient descent and the geometry of neural network parameter spaces into statistical theory is a productive and impactful research direction.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
์ผ๋ฐํ์ ๋์ : ๊ณผ๋งค๊ฐ๋ณ์ํ๋ ์ ๊ฒฝ๋ง์ด ๊ณผ์ ํฉ๋์ง ์๋ ์ด์
๊ณ ์ ํต๊ณ์ ํ์ต ์ด๋ก ์ ๋ช
ํํ ์์ธก์ ์ ์ํ๋ค. ํ๋ จ ์์ ๋ณด๋ค ๋ ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ์๊ธฐํ์ง๋ง ์๋ก์ด ๋ฐ์ดํฐ์์๋ ์น๋ช
์ ์ผ๋ก ์คํจํ๋ค๋ ๊ฒ์ด๋ค. ์ด ์์ธก์ ์์ญ ๋
๊ฐ ํต๊ณ ์ค๋ฌด๋ฅผ ์ด๋์ด ์จ ํธํฅ-๋ถ์ฐ ํธ๋ ์ด๋์คํ(bias-variance tradeoff), VC ์ฐจ์ ๊ฒฝ๊ณ(VC dimension bounds), PAC ํ์ต ์ด๋ก (PAC learning theory)์์ ๋์ถ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ ๊ทผ๊ฑฐ๋ฅผ ๊ฐ์ถ๊ณ ์๋ค.
ํ๋์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ด ์์ธก์ ์ผ์์ ์ผ๋ก ์๋ฐํ๋ค. ์์ญ์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ์ธ์ด ๋ชจ๋ธ์ ์๋ฐฑ๋ง ๊ฐ์ ์์ ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ๋ จ๋์์์๋, ์ด์ ์ ๋ณธ ์ ์๋ ์๋ก์ด ํ
์คํธ์ ์ผ๋ฐํ๋๋ค. ์๋ฐฑ๋ง ์ฅ์ ์ด๋ฏธ์ง๋ก ํ๋ จ๋ ์์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋น์ ๋ชจ๋ธ์ ์๋ก์ด ์ฌ์ง์ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅํ๋ค. ๋งค๊ฐ๋ณ์ ๋ ๋ฐ์ดํฐ ๋น์จ์ ๊ณ ์ ์ด๋ก ์ด ์น๋ช
์ ์ธ ๊ณผ์ ํฉ์ ์์ธกํ๋ ์๊ณ๊ฐ์ ํฌ๊ฒ ์ด๊ณผํ์ง๋ง, ๊ทธ๋ผ์๋ ๋ชจ๋ธ์ ์๋ํ๋ค.
์ ์๋ํ๋์ง๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋จ์ํ ์ง์ ํธ๊ธฐ์ฌ์ด ์๋๋ค. ์ด๋ ๋ฅ๋ฌ๋์ ์ฑ๊ณต์ด ๊ฒฐ๊ตญ ์คํจํ ์ ์๋ ์ฐ์ฐํ ํ์ด์ธ์ง, ์๋๋ฉด ์ฐ๋ฆฌ๊ฐ ์ ๋ขฐํ๊ณ ํ์ฅํ ์ ์๋ ๋ ๊น์ ์ํ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๋ฌธ์ ์ ๊ดํ 2025๋
์ฐ๊ตฌ๋ ๋ค ๊ฐ์ง ์ธก๋ฉด์์ ์ง์ ์ ์ด๋ฃจ๊ณ ์๋ค.
์๋ฌต์ ํธํฅ: ์จ๊ฒจ์ง ์ ๊ทํ๊ธฐ
๊ณผ๋งค๊ฐ๋ณ์ํ๋ ์ผ๋ฐํ์ ๋ํ ์ฃผ์ ์ค๋ช
์ ์๋ฌต์ ํธํฅ(implicit bias)์ด๋ค. ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ(๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๋ฐ ๊ทธ ๋ณํ)์ด ๋จ์ํ ํ๋ จ ๋ฐ์ดํฐ์ ๋ง๋ ์์์ ํด๋ฅผ ์ฐพ๋ ๊ฒ์ด ์๋๋ผ, ํ๋ จ ์ค์ฐจ๊ฐ 0์ธ ๋ชจ๋ ํด ์ค์์ ์ผ๋ฐํ๋ฅผ ์ด์งํ๋ ํน์ฑ์ ๊ฐ์ง ํน์ ํด๋ฅผ ์ฐพ๋๋ค๋ ๊ฒ์ด๋ค.
Matt & Stรถger๋ ๋จ์ํ๋ ์ค์ ์ธ ๊ณผ๋งค๊ฐ๋ณ์ํ๋ ์ ํ ์ ๊ฒฝ๋ง(๋น์ ํ์ฑ ์์ด ์์ฐจ์ ์ผ๋ก ๊ตฌ์ฑ๋ ๋ค์ค ์ ํ ๋ ์ด์ด)์ ๋ํด ํ์ฌ๊น์ง ๊ฐ์ฅ ์ ๋ฐํ ํน์ฑํ๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ค์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋ฌต์ ์ ๊ทํ ํจ๊ณผ์ ๋ํ ์๋ฐํ ์ํ ๋ฐ ํํ ๊ฒฝ๊ณ๋ฅผ ์ฆ๋ช
ํ๋ฉฐ, ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด โโ ๋
ธ๋ฆ์ด ์์ ํด๋ฅผ ์๋ฌต์ ์ผ๋ก ์ ํธํจ์ ๋ณด์ธ๋ค. ์ด๋ ๋ช
์์ โโ ์ ๊ทํ(Lasso)๊ฐ ๋ถ๊ณผํ๋ ๊ฒ๊ณผ ๋์ผํ ํน์ฑ์ด๋ค.
์ด๋ ์์ค ํจ์์ ์ ๊ทํ ํญ์ด ์ถ๊ฐ๋์ง ์๊ธฐ ๋๋ฌธ์ ์ฃผ๋ชฉํ ๋งํ๋ค. ์๋ฌต์ โโ ํธํฅ์ ์์ ํ ๋คํธ์ํฌ์ ๊ณ์ธต์ ๊ตฌ์กฐ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ์ญํ ๊ฐ์ ์ํธ์์ฉ์์ ๋ฐ์ํ๋ค. ๋น์ ํ์ฑ์ด ์๋๋ผ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ ์ต์ ํ ์งํ์ ๊ธฐํํ์ ํธํฅ์ ๋์
ํ๋ฉฐ, ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด๋ฅผ ํ์ฉํ๋ค.
์คํํธ๋ผ ํธํฅ: ์ ์ฃผํ์๋ฅผ ๋จผ์
Sahs et al.์ ๋ณด์์ ์ธ ๋ฉ์ปค๋์ฆ์ธ ์คํํธ๋ผ ํธํฅ(spectral bias)์ ํ๊ตฌํ๋ค. ์ด๋ ์ ๊ฒฝ๋ง์ด ๋ชฉํ ํจ์์ ๊ณ ์ฃผํ์ ์ฑ๋ถ๋ณด๋ค ์ ์ฃผํ์ ์ฑ๋ถ์ ๋จผ์ ํ์ตํ๋ ๊ฒฝํฅ์ด๋ค. ์ ์ฃผํ์ ํจ์๋ ๋ ๋งค๋๋ฝ๊ณ ์ผ๋ฐํ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ฐ๋ฉด, ๊ณ ์ฃผํ์ ํจ์๋ ๋
ธ์ด์ฆ๋ฅผ ๋ํ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋๊ธฐ ๋๋ฌธ์ ์ด ํธํฅ์ ์๋ฌต์ ์ ๊ทํ๋ก ์์ฉํ๋ค.
๊ทธ๋ค์ ๊ธฐ์ฌ๋ ํ์ฑํ ํจ์์ ์ ํ์ด ์คํํธ๋ผ ํธํฅ์ ํ์ฑํ๋ค๋ ๊ฒ์ ๋ณด์ด๋ ๋ฐ ์๋ค. ์๋ก ๋ค๋ฅธ ๋น์ ํ์ฑ(ReLU, sigmoid, GELU, sine)์ ์๋ก ๋ค๋ฅธ ์ฃผํ์ ํ์ต ์ฐ์ ์์๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด, ReLU ๋คํธ์ํฌ๋ ์กฐ๊ฐ๋ณ ์ ํ ํจ์(๋ฎ์ ์ ํจ ์ฃผํ์)๋ฅผ ์ ํธํ๋ ๋ฐ๋ฉด, sine ํ์ฑํ ๋คํธ์ํฌ๋ ๊ณ ์ฃผํ์ ์ฑ๋ถ์ ๋ณด๋ค ์ฝ๊ฒ ํ์ตํ ์ ์๋ค.
์ค์ฉ์ ์ธ ์์ฌ์ ์ ๋ค์๊ณผ ๊ฐ๋ค. ํ์ฑํ ํจ์๋ ๋จ์ํ ๊ณ์ฐ ํธ์๋ฅผ ์ํ ์ํคํ
์ฒ ์ ํ์ด ์๋๋ผ, ๋คํธ์ํฌ๊ฐ ์ฝ๊ฒ ํ์ตํ ์ ์๋ ํจ์์ ์ต์ ํ๋ ํจ์๋ฅผ ๊ฒฐ์ ํ๋ ์ ๊ทํ ์ ํ์ด๋ค.
์์ญ ๊ณ์ฐ: ๊ธฐํํ์ ๊ด์
Li et al.์ ์๋ฌต์ ํธํฅ์ ๋ํ ๊ธฐํํ์ ํน์ฑํ๋ฅผ ์ ์ํ๋ค. ์ด๋ ๋คํธ์ํฌ์ ๊ฒฐ์ ๊ฒฝ๊ณ๊ฐ ์
๋ ฅ ๊ณต๊ฐ์ ์์ฑํ๋ ์ฐ๊ฒฐ๋ ์์ญ(connected regions)์ ์์ด๋ค. ์
๋ ฅ ๊ณต๊ฐ์ ๋ง์ ์์ ์์ญ์ผ๋ก ๋ถํ ํ๋ ๋คํธ์ํฌ๋ ๋ ์ ๊ณ ํฐ ์์ญ์ ์์ฑํ๋ ๋คํธ์ํฌ๋ณด๋ค ๋ ๋ณต์กํ๋ฉฐ ๊ณผ์ ํฉ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
๊ทธ๋ค์ ํน์ ์ํคํ
์ฒ์์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ์ ํ ์์ญ ์๊ฐ ๊ฑฐ์ ์ต์์ ๊ฐ๊น์ด ํด๋ก ์๋ ดํจ์ ์ฆ๋ช
ํ๋คโ์ด๋ ๋คํธ์ํฌ๊ฐ ์์๋ก ๋ณต์กํด์ง ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์์๋ ๋ถ๊ตฌํ๊ณ , ํ์ต๋ ํจ์๊ฐ ์ ๋จ์ํ์ง(์ฆ, ์ผ๋ฐํ๊ฐ ์ ๋๋์ง)์ ๋ํ ๊ตฌ์ฒด์ ์ด๊ณ ๊ธฐํํ์ ์ธ ์ค๋ช
์ ์ ๊ณตํ๋ค.
๊ณ ์ ์ด๋ก ์ ๋์ด์ ์ฆ๋ช
๊ฐ๋ฅํ ๊ฒฝ๊ณ
Dhingra๋ ๊ณผ๋งค๊ฐ๋ณ์ํ๋ ๋คํธ์ํฌ์ ๋ํ ์ฆ๋ช
๊ฐ๋ฅํ ์ผ๋ฐํ ๊ฒฝ๊ณ๋ฅผ ๊ฐ๊ดํ๊ณ ์ด๋ฅผ ํ์ฅํ๋ค. ํต์ฌ ํต์ฐฐ์ ๋ค์๊ณผ ๊ฐ๋ค: ๊ณ ์ ์ ๊ฒฝ๊ณ(VC ์ฐจ์, Rademacher ๋ณต์ก๋)๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ๋ถ๊ณผํ๋ ์ ์ฝ์ ๊ณ ๋ คํ์ง ์๊ณ ๋งค๊ฐ๋ณ์ ์์๋ง ์์กดํ๊ธฐ ๋๋ฌธ์, ๊ณผ๋งค๊ฐ๋ณ์ํ ์ฒด์ ์์๋ ๋ฌด์๋ฏธํด์ง๋ค(์ผ๋ฐํ ์ค์ฐจ > 1์ ์์ธกํ๋ค).
๊ท๋ฒ ๊ธฐ๋ฐ, PAC-Bayes, ์์ถ ๊ธฐ๋ฐ ๋ฑ์ ์ต์ ๊ฒฝ๊ณ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ํด ์ฐพ์์ง ํน์ ํด์ ๊ดํ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ฌ, ๋ฌด์๋ฏธํ์ง ์์ ์ผ๋ฐํ ์ถ์ ์น๋ฅผ ์ฐ์ถํ๋ค. ์ด๋ฌํ ๊ฒฝ๊ณ๋ค์ ์ฌ์ ํ ๋์จํ์ง๋ง, ์ค์ ๋ก ๊ด์ฐฐ๋๋ ์ ์ฑ์ ํ๋์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ๋ค: ๊ณ ์ ์ด๋ก ์ด ๋ฐ๋๋ฅผ ์์ธกํจ์๋ ๋ถ๊ตฌํ๊ณ , ๋คํธ์ํฌ๊ฐ ๋ ๋์ด์ง์๋ก(๋ ์ด์ด๋น ๋งค๊ฐ๋ณ์๊ฐ ๋ง์์ง์๋ก) ์ผ๋ฐํ๊ฐ ํฅ์๋๋ค.
์ฃผ์ฅ๊ณผ ์ฆ๊ฑฐ
<
| ์ฃผ์ฅ | ์ฆ๊ฑฐ | ํ์ |
|---|
| ๊ณ ์ ํต๊ณ ์ด๋ก ์ ๊ณผ๋งค๊ฐ๋ณ์ํ๋ ๊ณผ์ ํฉ์ ์์ธกํ๋ค | VC ์ฐจ์, ํธํฅ-๋ถ์ฐ ํธ๋ ์ด๋์คํ | โ
๊ณ ์ ์ ์์ธก |
| ํ๋ ์ ๊ฒฝ๋ง์ ์ด ์์ธก์ ์๋ฐํ๋ค | ๋ค์ํ ๋ถ์ผ์์์ ์ค์ฆ์ ๊ด์ฐฐ | โ
์ ๋ฌธ์ํ๋จ |
| ์๋ฌต์ โโ ์ ๊ทํ๊ฐ ์ ํ ๋คํธ์ํฌ์ ์ผ๋ฐํ๋ฅผ ์ค๋ช
ํ๋ค | Matt & Stรถger: ์๋ฐํ ๊ฒฝ๊ณ ์ฆ๋ช
| โ
์ฆ๋ช
๋จ (์ ํ ๊ฒฝ์ฐ) |
| ์คํํธ๋ผ ํธํฅ์ด ์๋ฌต์ ์ ๊ทํ๋ฅผ ์ ๊ณตํ๋ค | Sahs et al.: ํ์ฑํ ์์กด์ ์ฃผํ์ ํ์ต ์ฐ์ ์์ | โ
์ง์ง๋จ |
| ์์ญ ๊ณ์ฐ์ด ์๋ฌต์ ํธํฅ์ ๊ธฐํํ์ ์ผ๋ก ํน์ฑํํ๋ค | Li et al.: ์ต์ ์์ญ ์๋ ด ์ค์ฆ | โ
์ง์ง๋จ |
| ํ์ฌ ์ด๋ก ์ด ๋ฅ๋ฌ๋ ์ผ๋ฐํ๋ฅผ ์์ ํ ์ค๋ช
ํ๋ค | ์ด๋ก (์ ํ/์์ ๋คํธ์ํฌ)๊ณผ ์ค์ (๊น๊ณ ๋น์ ํ์ ์ธ ๋คํธ์ํฌ) ์ฌ์ด์ ๊ฐ๊ทน์ด ๋จ์ ์๋ค | โ ๋ถ๋ถ์ ์ดํด |
๋ฏธํด๊ฒฐ ๋ฌธ์
๊น์ ๋น์ ํ ๋คํธ์ํฌ: ๋๋ถ๋ถ์ ์ด๋ก ์ ๊ฒฐ๊ณผ๋ ์ ํ ๋คํธ์ํฌ, ์์ ๋คํธ์ํฌ, ๋๋ ๋จ์ํ๋ ์ํคํ
์ฒ์ ์ ์ฉ๋๋ค. ์ด๋ฌํ ํต์ฐฐ์ ์ค์ ์์ ์ฃผ๋ฅ๋ฅผ ์ด๋ฃจ๋ ๊น๊ณ ๋น์ ํ์ ์ธ ์ดํ
์
๊ธฐ๋ฐ ์ํคํ
์ฒ๋ก ์ด์ ํ ์ ์๋๊ฐ?Transformer์ ํน์์ฑ: Transformer ์ํคํ
์ฒ(์ดํ
์
๋ฉ์ปค๋์ฆ, ์์น ์ธ์ฝ๋ฉ, ๋ ์ด์ด ์ ๊ทํ)์ ์ผ๋ฐํ ํน์ฑ์ ์ด๋ก ์ ์ผ๋ก ์ ์ดํด๋์ง ์๊ณ ์๋ค. Transformer์ ํน์ ํ ์๋ฌต์ ํธํฅ์ด ์กด์ฌํ๋๊ฐ?์ด์ค ํ๊ฐ(Double descent): ํ๋ จ ๋ฐ์ดํฐ์ ๋ณด๊ฐ ์ดํ ์ผ๋ฐํ๊ฐ ํฅ์๋๋ "์ด์ค ํ๊ฐ" ํ์์ ๊ธฐ์กด ์ด๋ก ์ผ๋ก ์ฌ์ ํ ์ถฉ๋ถํ ์ค๋ช
๋์ง ์๋๋ค. ์๋ฌต์ ํธํฅ ์ด๋ก ์ด ์ด์ค ํ๊ฐ์ ์ค๋ช
ํ ์ ์๋๊ฐ?์ค์ฉ์ ํจ์: ์๋ฌต์ ํธํฅ์ ๋ํ ์ดํด๊ฐ ๋ ๋์ ์ํคํ
์ฒ๋ ํ๋ จ ๋ฐฉ๋ฒ์ ์ ์ํ๋๊ฐ? ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ์๋ฌต์ ์ผ๋ก ์ ๊ทํ๋ฅผ ์ํํ๋ค๋ฉด, ์ด ์๋ฌต์ ์ ๊ทํ๋ฅผ ๊ฐํํ๋ ์ํคํ
์ฒ๋ฅผ ์ค๊ณํ ์ ์๋๊ฐ?๋ฏธ์ธ ์กฐ์ ๋์ญํ: ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์๊ท๋ชจ ๋ฐ์ดํฐ์
์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ ๋, ๋ฏธ์ธ ์กฐ์ ์ ์๋ฌต์ ํธํฅ์ ์ฒ์๋ถํฐ ํ๋ จํ๋ ๊ฒฝ์ฐ์ ๋ค๋ฅผ ์ ์๋ค. ์ฌ์ ํ๋ จ๋ ์ด๊ธฐํ๊ฐ ์ดํ ์ต์ ํ์ ์๋ฌต์ ํธํฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ?์ฐ๊ตฌ์ ๋ํ ์์ฌ์
ML ์ด๋ก ๊ฐ์๊ฒ ์์ด, ์ผ๋ฐํ ํผ์ฆ์ ๋ฅ๋ฌ๋ ์ด๋ก ์ ํต์ฌ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ก ๋จ์ ์๋ค. 2025๋
์ ๊ฒฐ๊ณผ๋ค์ ํนํ ํน์ ์ํคํ
์ฒ์ ๋ํ ์๋ฌต์ ํธํฅ์ ํน์ฑํ์์ ์๋ฏธ ์๋ ์ง์ ์ ์ด๋ฃจ์์ง๋ง, ์ด๋ก ๊ณผ ์ค์ ์ฌ์ด์ ๊ฐ๊ทน์ ์ง์์ ์ธ ์ฐ๊ตฌ ํฌ์๋ฅผ ์ด๊ตฌํ๋ค.
์ค๋ฌด์์๊ฒ ์์ด, ์ค์ฉ์ ์์ฌ์ ์ ์ํคํ
์ฒ์ ์ตํฐ๋ง์ด์ ์ ์ ํ ์์ฒด๊ฐ ์ ๊ทํ์ ํ ํํ๋ผ๋ ์ ์ด๋ค. ํ์ฑํ ํจ์, ๋ ์ด์ด ๋๋น, ํ์ต๋ฅ , ํ๋ จ ์ค์ผ์ค์ ๋ชจ๋ ์๋ฌต์ ํธํฅ์ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๋ฐ๋ผ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ํน์ฑ์๋ ์ํฅ์ ์ค๋ค. ์ด๋ฌํ ํจ๊ณผ๋ฅผ ์ดํดํจ์ผ๋ก์จ ๋ณด๋ค ์์น์ ์ธ ๋ชจ๋ธ ์ค๊ณ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
๊ณ ์ ์ด๋ก ์ ํ๋ จ๋ฐ์ ํต๊ณํ์๋ค์๊ฒ ๊ณผ๋งค๊ฐ๋ณ์ํ ํผ์ฆ์ ํ์ต ์ด๋ก ์ ํ ๋๋ฅผ ํ์ฅํ๋ผ๋ ์ด๋์ฅ์ด๋ค. ๊ณ ์ ์ ํ๋ ์์ํฌ๊ฐ ํ๋ฆฐ ๊ฒ์ด ์๋๋ผโ๋ถ์์ ํ ๊ฒ์ด๋ค. ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๊ตฌ์กฐ์ ์ ๊ฒฝ๋ง ๋งค๊ฐ๋ณ์ ๊ณต๊ฐ์ ๊ธฐํํ์ ํต๊ณ ์ด๋ก ์ ํตํฉํ๋ ๊ฒ์ ์์ฐ์ ์ด๊ณ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ด๋ค.
References (4)
[1] Dhingra, A. (2025). Provable Generalization in Overparameterized Neural Nets. arXiv:2508.17256.
[2] Sahs, J., Pyle, R., Anselmi, F. (2025). The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity. arXiv:2503.10587.
[3] Matt, H. & Stรถger, D. (2025). Linear regression with overparameterized linear neural networks: Tight upper and lower bounds for implicit $\ell^1$-regularization. arXiv:2506.01143.
[4] Li, J., Xu, J., Wang, Z. (2025). Understanding Nonlinear Implicit Bias via Region Counts in Input Space. arXiv:2505.11370.