Paper ReviewMathematics & Statistics
Escaping the Curse of Dimensionality: Entropic Optimal Transport Gets Fast Convergence
Optimal transport theory faces a computational wall in high dimensions. Rigollet and Stromme prove that entropic regularization breaks through it, establishing dimension-free convergence rates for plug-in estimatorsโwith implications for transfer learning.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Optimal transport (OT) is one of the most elegant bridges between probability theory and applied mathematics. Given two probability distributions, OT asks: what is the most efficient way to transform one into the other? The answerโthe Wasserstein distanceโhas become indispensable in machine learning, economics, and imaging science. But classical OT estimation suffers from a fundamental problem: the curse of dimensionality. As the dimension of the data grows, the number of samples required to estimate the Wasserstein distance reliably grows exponentially.
Rigollet and Stromme's paper in the Annals of Statistics addresses this bottleneck head-on, proving that entropic regularization provides an escape route from this curse.
The Dimensional Barrier in Classical OT
The classical Wasserstein distance between two distributions in d dimensions requires roughly n โ d^(d/2) samples for reliable estimation. For a 100-dimensional problem, this is astronomically large. This curse is not an artifact of a particular estimatorโit is minimax-optimal, meaning no estimator can do better without additional assumptions.
This dimensional dependence has been the elephant in the room for OT applications in high-dimensional settings. Practitioners use OT-based losses (such as the Wasserstein GAN objective) in spaces with thousands of dimensions, but the statistical foundations have not fully justified this practice.
Entropic Regularization: Adding Noise to Gain Clarity
Entropic optimal transport (EOT) modifies the classical problem by adding a penalty term proportional to the Kullback-Leibler divergence of the transport plan from the product measure. The regularization parameter ฮต controls the strength of this penalty. When ฮต = 0, one recovers classical OT. When ฮต > 0, the problem becomes strictly convex and computationally tractable via the Sinkhorn algorithm.
Rigollet and Stromme's contribution goes beyond computation. They demonstrate that for fixed ฮต > 0, the entropic optimal transport cost admits plug-in estimators with parametric convergence ratesโrates proportional to 1/โn that do not depend on the dimension d.
Core Claims and Results
<
| Claim | Status | Evidence Basis |
|---|
| Plug-in EOT estimators achieve dimension-free parametric rates | Central theorem | Mathematical proof in the paper |
| The curse of dimensionality can be avoided for EOT estimation | Directly established | Follows from the dimension-free rate results |
| EOT theory grounds a practical model for transfer learning | Proposed framework | Theoretical model presented in the paper |
The dimension-free result is striking because it is not achieved through structural assumptions on the data (such as low-dimensional manifold structure). Instead, it is the entropic regularization itself that smooths the transport problem enough to permit fast estimation. The regularization acts as an implicit denoiser: by softening the deterministic transport map into a stochastic coupling, it removes the sensitivity to fine-grained geometric details that drives the dimensional dependence.
The Geometry Behind the Result
The paper develops its results through a detailed analysis of the geometry of entropic transport plans. The key insight is that the Sinkhorn potentialsโthe dual solutions to the EOT problemโpossess regularity properties that classical Kantorovich potentials lack. Specifically, the entropic potentials are smooth functions (analytic, in fact, when the cost function is smooth), and their empirical estimates converge uniformly at parametric rates.
This smoothness is not a minor technical detail. It is the mechanism by which dimension dependence is eliminated. Smooth functions can be estimated from samples at rates that depend on their regularity rather than on the ambient dimensionโa classical principle in nonparametric statistics that EOT exploits in a novel way.
The authors also connect their results to large deviations theory, providing exponential concentration inequalities for the EOT cost around its population value. These inequalities go beyond central limit behavior and characterize the tail probabilities of the estimation error.
Transfer Learning Through the Lens of EOT
Perhaps the most forward-looking aspect of the paper is its proposal of a transfer learning framework grounded in EOT theory. The idea is natural: if EOT provides a statistically efficient measure of distributional distance, it can be used to quantify the similarity between source and target domains in transfer learning.
The paper suggests that the EOT cost between source and target distributions can serve as a principled measure of transferability. Unlike ad hoc domain distance measures common in the transfer learning literature, this measure inherits the geometric richness of optimal transport while avoiding its statistical limitations.
This proposal remains theoreticalโthe paper does not include empirical transfer learning experiments. But the mathematical foundation is rigorous, and the connection between distributional distance and transfer difficulty is well-motivated by existing learning theory.
Open Questions
Several natural questions follow from this work:
Adaptive regularization. The results hold for fixed ฮต > 0. How should ฮต be chosen in practice? Too large, and the entropic cost deviates substantially from the Wasserstein distance. Too small, and the dimensional curse reappears. Adaptive selection of ฮต that balances statistical and approximation error is an active research direction.
Computational-statistical tradeoffs. The Sinkhorn algorithm converges in O(nยฒ / ฮต) operations per iteration. As ฮต shrinks toward zero, computational cost grows. Understanding the joint optimization over ฮต of statistical rate, approximation quality, and computational cost remains open.
Beyond the squared cost. The results in the paper focus on the squared Euclidean cost. Whether similar dimension-free rates hold for other cost functionsโsuch as the geodesic distance on manifoldsโis an important question for applications in geometric data analysis.
Empirical validation of the transfer learning framework. The theoretical transferability measure needs empirical benchmarking against existing domain adaptation methods. The gap between theoretical elegance and practical utility is often large in optimal transport.
Closing Reflection
Rigollet and Stromme's work represents a significant advance in the statistical foundations of optimal transport. By proving that entropic regularization purchases not only computational tractability but also statistical efficiency, they resolve a tension that has lingered in the OT literature: the suspicion that the entropic approximation is merely a computational convenience rather than a statistically principled object.
The dimension-free rates suggest that EOT is, in some sense, the right relaxation of classical OT for statistical applications. Whether this theoretical insight translates into improved practiceโparticularly in the transfer learning framework the authors proposeโremains to be seen.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์ฐจ์์ ์ ์ฃผ์์ ํ์ถ: ์ํธ๋กํผ ์ต์ ์์ก์ ๋น ๋ฅธ ์๋ ด
์ต์ ์์ก(Optimal Transport, OT)์ ํ๋ฅ ๋ก ๊ณผ ์์ฉ ์ํ์ ์๋ ๊ฐ์ฅ ์ฐ์ํ ๋ค๋ฆฌ ์ค ํ๋์ด๋ค. OT๋ ๋ ํ๋ฅ ๋ถํฌ๊ฐ ์ฃผ์ด์ก์ ๋, ํ๋๋ฅผ ๋ค๋ฅธ ๊ฒ์ผ๋ก ๋ณํํ๋ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด ๋ฌด์์ธ์ง ๋ฌป๋๋ค. ๊ทธ ๋ต์ธ Wasserstein ๊ฑฐ๋ฆฌ๋ ๊ธฐ๊ณ ํ์ต, ๊ฒฝ์ ํ, ์์ ๊ณผํ์์ ์์ด์๋ ์ ๋ ๊ฐ๋
์ด ๋์๋ค. ๊ทธ๋ฌ๋ ๊ณ ์ ์ ์ธ OT ์ถ์ ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ค. ๋ฐ๋ก ์ฐจ์์ ์ ์ฃผ์ด๋ค. ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ปค์ง์๋ก, Wasserstein ๊ฑฐ๋ฆฌ๋ฅผ ์ ๋ขฐ์ฑ ์๊ฒ ์ถ์ ํ๋ ๋ฐ ํ์ํ ํ๋ณธ ์๊ฐ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ค.
Annals of Statistics์ ๊ฒ์ฌ๋ Rigollet๊ณผ Stromme์ ๋
ผ๋ฌธ์ ์ด ๋ณ๋ชฉ ํ์์ ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ์ํธ๋กํผ ์ ๊ทํ(entropic regularization)๊ฐ ์ด ์ ์ฃผ๋ฅผ ํ์ถํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํจ์ ์ฆ๋ช
ํ๋ค.
๊ณ ์ ์ OT์ ์ฐจ์ ์ฅ๋ฒฝ
d์ฐจ์์์ ๋ ๋ถํฌ ์ฌ์ด์ ๊ณ ์ ์ Wasserstein ๊ฑฐ๋ฆฌ๋ฅผ ์ ๋ขฐ์ฑ ์๊ฒ ์ถ์ ํ๋ ค๋ฉด ๋๋ต n โ d^(d/2)๊ฐ์ ํ๋ณธ์ด ํ์ํ๋ค. 100์ฐจ์ ๋ฌธ์ ์ ๊ฒฝ์ฐ, ์ด๋ ์ฒ๋ฌธํ์ ์ผ๋ก ํฐ ์์ด๋ค. ์ด ์ ์ฃผ๋ ํน์ ์ถ์ ๋์ ์ํ ๋ถ์ฐ๋ฌผ์ด ์๋๋ผ ๋ฏธ๋๋งฅ์ค ์ต์ (minimax-optimal)์ด๋ค. ์ฆ, ์ถ๊ฐ์ ์ธ ๊ฐ์ ์์ด๋ ์ด๋ค ์ถ์ ๋๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
์ด๋ฌํ ์ฐจ์ ์์กด์ฑ์ ๊ณ ์ฐจ์ ํ๊ฒฝ์์์ OT ์์ฉ์ ์์ด ์ค๋ซ๋์ ์ธ๋ฉดํด ์จ ๋ฌธ์ ์๋ค. ์ค๋ฌด์๋ค์ ์์ฒ ์ฐจ์์ ๊ณต๊ฐ์์ OT ๊ธฐ๋ฐ ์์ค ํจ์(์: Wasserstein GAN ๋ชฉ์ ํจ์)๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ด๋ฌํ ๊ดํ์ ๋ท๋ฐ์นจํ๋ ํต๊ณ์ ๊ทผ๊ฑฐ๋ ์ถฉ๋ถํ ํ๋ฆฝ๋์ง ์์๋ค.
์ํธ๋กํผ ์ ๊ทํ: ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ช
ํ์ฑ ํ๋ณด
์ํธ๋กํผ ์ต์ ์์ก(Entropic Optimal Transport, EOT)์ ์์ก ๊ณํ(transport plan)๊ณผ ๊ณฑ์ธก๋(product measure) ์ฌ์ด์ Kullback-Leibler ๋ฐ์ฐ์ ๋น๋กํ๋ ๋ฒ์นํญ์ ์ถ๊ฐํ์ฌ ๊ณ ์ ์ ๋ฌธ์ ๋ฅผ ๋ณํํ๋ค. ์ ๊ทํ ๋งค๊ฐ๋ณ์ ฮต๋ ์ด ๋ฒ์น์ ๊ฐ๋๋ฅผ ์ ์ดํ๋ค. ฮต = 0์ด๋ฉด ๊ณ ์ ์ OT๋ก ๋์๊ฐ๊ณ , ฮต > 0์ด๋ฉด ๋ฌธ์ ๊ฐ ์๋ณผ๋ก(strictly convex)ํด์ง๋ฉฐ Sinkhorn ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ณ์ฐ์ ์ผ๋ก ๋ค๋ฃฐ ์ ์๊ฒ ๋๋ค.
Rigollet๊ณผ Stromme์ ๊ธฐ์ฌ๋ ๊ณ์ฐ์ ๋์ด์ ๋ค. ์ด๋ค์ ๊ณ ์ ๋ ฮต > 0์ ๋ํด, ์ํธ๋กํผ ์ต์ ์์ก ๋น์ฉ์ด ์ฐจ์ d์ ์์กดํ์ง ์๋ ๋ชจ์์ ์๋ ด ์๋(parametric convergence rates)โ1/โn์ ๋น๋กํ๋ ์๋โ๋ฅผ ๊ฐ๋ ํ๋ฌ๊ทธ์ธ ์ถ์ ๋(plug-in estimator)์ ํ์ฉํจ์ ์ฆ๋ช
ํ๋ค.
ํต์ฌ ์ฃผ์ฅ ๋ฐ ๊ฒฐ๊ณผ
<
| ์ฃผ์ฅ | ์ํ | ๊ทผ๊ฑฐ |
|---|
| ํ๋ฌ๊ทธ์ธ EOT ์ถ์ ๋์ ์ฐจ์ ๋
๋ฆฝ์ ์ธ ๋ชจ์์ ์๋ ด ์๋๋ฅผ ๋ฌ์ฑํ๋ค | ์ค์ฌ ์ ๋ฆฌ | ๋
ผ๋ฌธ์ ์ํ์ ์ฆ๋ช
|
| EOT ์ถ์ ์์ ์ฐจ์์ ์ ์ฃผ๋ฅผ ํผํ ์ ์๋ค | ์ง์ ํ๋ฆฝ๋จ | ์ฐจ์ ๋
๋ฆฝ์ ์๋ ด ์๋ ๊ฒฐ๊ณผ๋ก๋ถํฐ ๋์ถ |
| EOT ์ด๋ก ์ ์ ์ด ํ์ต์ ์ํ ์ค์ฉ์ ๋ชจ๋ธ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค | ์ ์๋ ํ๋ ์์ํฌ | ๋
ผ๋ฌธ์ ์ ์๋ ์ด๋ก ์ ๋ชจ๋ธ |
์ฐจ์ ๋
๋ฆฝ์ ๊ฒฐ๊ณผ๋ ๋ฐ์ดํฐ์ ๋ํ ๊ตฌ์กฐ์ ๊ฐ์ (์: ์ ์ฐจ์ ๋ค์์ฒด ๊ตฌ์กฐ) ์์ด ๋ฌ์ฑ๋๋ค๋ ์ ์์ ์ฃผ๋ชฉํ ๋งํ๋ค. ์คํ๋ ค ๋น ๋ฅธ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ ๋งํผ ์์ก ๋ฌธ์ ๋ฅผ ์ถฉ๋ถํ ์ํํ๋ ๊ฒ์ ์ํธ๋กํผ ์ ๊ทํ ์์ฒด์ด๋ค. ์ด ์ ๊ทํ๋ ์๋ฌต์ ์ธ ์ก์ ์ ๊ฑฐ๊ธฐ(denoiser)๋ก ์์ฉํ๋ค. ๊ฒฐ์ ๋ก ์ ์์ก ์ฌ์(transport map)์ ํ๋ฅ ์ ๊ฒฐํฉ(stochastic coupling)์ผ๋ก ์ํํจ์ผ๋ก์จ, ์ฐจ์ ์์กด์ฑ์ ์ ๋ฐํ๋ ๋ฏธ์ธํ ๊ธฐํํ์ ์ธ๋ถ ์ฌํญ์ ๋ํ ๋ฏผ๊ฐ๋๋ฅผ ์ ๊ฑฐํ๋ค.
๊ฒฐ๊ณผ ์ด๋ฉด์ ๊ธฐํํ
์ด ๋
ผ๋ฌธ์ ์ํธ๋กํผ ์์ก ๊ณํ์ ๊ธฐํํ์ ๋ํ ์์ธํ ๋ถ์์ ํตํด ๊ฒฐ๊ณผ๋ฅผ ์ ๊ฐํ๋ค. ํต์ฌ ํต์ฐฐ์ EOT ๋ฌธ์ ์ ์๋ ํด(dual solution)์ธ Sinkhorn ํฌํ
์
(Sinkhorn potential)์ด ๊ณ ์ ์ ์ธ Kantorovich ํฌํ
์
์๋ ์๋ ์ ์น์ฑ(regularity) ์ฑ์ง์ ๊ฐ์ง๋ค๋ ์ ์ด๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋น์ฉ ํจ์๊ฐ ๋งค๋๋ฌ์ด ๊ฒฝ์ฐ ์ํธ๋กํผ ํฌํ
์
์ ๋งค๋๋ฌ์ด ํจ์(์ค์ ๋ก๋ ํด์์ ํจ์)์ด๋ฉฐ, ์ด๋ค์ ๊ฒฝํ์ ์ถ์ ๊ฐ์ ๋ชจ์์ ์๋๋ก ๊ท ๋ฑ ์๋ ดํ๋ค.
์ด ๋งค๋๋ฌ์์ ์ฌ์ํ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ด ์๋๋ค. ์ด๊ฒ์ ์ฐจ์ ์์กด์ฑ์ด ์ ๊ฑฐ๋๋ ๋ฉ์ปค๋์ฆ์ด๋ค. ๋งค๋๋ฌ์ด ํจ์๋ ์ฃผ๋ณ ์ฐจ์์ด ์๋ ์ ์น์ฑ(regularity)์ ์์กดํ๋ ์๋๋ก ํ๋ณธ์ ํตํด ์ถ์ ๋ ์ ์๋๋ฐ, ์ด๋ ๋น๋ชจ์ ํต๊ณํ์ ๊ณ ์ ์ ์๋ฆฌ๋ก์ EOT๊ฐ ์๋ก์ด ๋ฐฉ์์ผ๋ก ํ์ฉํ๋ ๊ฒ์ด๋ค.
์ ์๋ค์ ๋ํ ์์ ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ๋ํธ์ฐจ ์ด๋ก (large deviations theory)๊ณผ ์ฐ๊ฒฐํ์ฌ, EOT ๋น์ฉ์ ๋ชจ์ง๋จ ๊ฐ ์ฃผ๋ณ์ ๋ํ ์ง์์ ์ง์ค ๋ถ๋ฑ์(exponential concentration inequalities)์ ์ ๊ณตํ๋ค. ์ด ๋ถ๋ฑ์๋ค์ ์ค์ฌ๊ทนํ ํ๋์ ๋์ด์ ์ถ์ ์ค์ฐจ์ ๊ผฌ๋ฆฌ ํ๋ฅ (tail probabilities)์ ํน์ฑํํ๋ค.
EOT์ ๊ด์ ์์ ๋ณธ ์ ์ด ํ์ต
์ด ๋
ผ๋ฌธ์์ ๊ฐ์ฅ ๋ฏธ๋์งํฅ์ ์ธ ์ธก๋ฉด์ ์๋ง๋ EOT ์ด๋ก ์ ๊ธฐ๋ฐํ ์ ์ด ํ์ต(transfer learning) ํ๋ ์์ํฌ์ ์ ์์ผ ๊ฒ์ด๋ค. ์์ด๋์ด๋ ์์ฐ์ค๋ฝ๋ค: EOT๊ฐ ๋ถํฌ์ ๊ฑฐ๋ฆฌ์ ํต๊ณ์ ์ผ๋ก ํจ์จ์ ์ธ ์ฒ๋๋ฅผ ์ ๊ณตํ๋ค๋ฉด, ์ด๋ฅผ ์ ์ด ํ์ต์์ ์์ค ๋๋ฉ์ธ๊ณผ ํ๊ฒ ๋๋ฉ์ธ ๊ฐ์ ์ ์ฌ์ฑ์ ์ ๋ํํ๋ ๋ฐ ํ์ฉํ ์ ์๋ค.
์ด ๋
ผ๋ฌธ์ ์์ค ๋ถํฌ์ ํ๊ฒ ๋ถํฌ ์ฌ์ด์ EOT ๋น์ฉ์ด ์ ์ด ๊ฐ๋ฅ์ฑ(transferability)์ ์์น์ ์ธ ์ฒ๋๋ก ๊ธฐ๋ฅํ ์ ์๋ค๊ณ ์ ์ํ๋ค. ์ ์ด ํ์ต ๋ฌธํ์์ ํํ ๋ณผ ์ ์๋ ์๊ธฐ์๋ณ์ (ad hoc) ๋๋ฉ์ธ ๊ฑฐ๋ฆฌ ์ฒ๋์ ๋ฌ๋ฆฌ, ์ด ์ฒ๋๋ ์ต์ ์์ก(optimal transport)์ ๊ธฐํํ์ ํ๋ถํจ์ ๊ณ์นํ๋ฉด์๋ ๊ทธ ํต๊ณ์ ํ๊ณ๋ฅผ ํผํ๋ค.
์ด ์ ์์ ์ด๋ก ์ ์ธ ์์ค์ ๋จธ๋ฌผ๋ฌ ์์ผ๋ฉฐ, ๋
ผ๋ฌธ์๋ ๊ฒฝํ์ ์ ์ด ํ์ต ์คํ์ด ํฌํจ๋์ด ์์ง ์๋ค. ๊ทธ๋ฌ๋ ์ํ์ ํ ๋๋ ์๋ฐํ๋ฉฐ, ๋ถํฌ์ ๊ฑฐ๋ฆฌ์ ์ ์ด ๋์ด๋ ์ฌ์ด์ ์ฐ๊ฒฐ์ ๊ธฐ์กด ํ์ต ์ด๋ก ์ ์ํด ์ถฉ๋ถํ ๋๊ธฐ๋ถ์ฌ๋๋ค.
๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ค
์ด ์ฐ๊ตฌ๋ก๋ถํฐ ๋ช ๊ฐ์ง ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ๋ค์ด ๋์ถ๋๋ค.
์ ์์ ์ ์นํ(Adaptive regularization). ๊ฒฐ๊ณผ๋ ๊ณ ์ ๋ ฮต > 0์ ๋ํด ์ฑ๋ฆฝํ๋ค. ์ค์ ๋ก ฮต์ ์ด๋ป๊ฒ ์ ํํด์ผ ํ๋๊ฐ? ๋๋ฌด ํฌ๋ฉด ์ํธ๋กํผ ๋น์ฉ์ด Wasserstein ๊ฑฐ๋ฆฌ๋ก๋ถํฐ ํฌ๊ฒ ๋ฒ์ด๋๋ค. ๋๋ฌด ์์ผ๋ฉด ์ฐจ์์ ์ ์ฃผ๊ฐ ๋ค์ ๋ํ๋๋ค. ํต๊ณ์ ์ค์ฐจ์ ๊ทผ์ฌ ์ค์ฐจ์ ๊ท ํ์ ๋ง์ถ๋ ฮต์ ์ ์์ ์ ํ์ ํ๋ฐํ ์ฐ๊ตฌ ๋ฐฉํฅ์ด๋ค.
๊ณ์ฐ-ํต๊ณ ํธ๋ ์ด๋์คํ(Computational-statistical tradeoffs). Sinkhorn ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ณต๋น O(nยฒ / ฮต) ์ฐ์ฐ์ผ๋ก ์๋ ดํ๋ค. ฮต์ด 0์ ๊ฐ๊น์์ง์๋ก ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ๋ค. ํต๊ณ์ ์๋ ด ์๋, ๊ทผ์ฌ ํ์ง, ๊ณ์ฐ ๋น์ฉ์ ๋ํ ฮต์ ๊ณต๋ ์ต์ ํ๋ฅผ ์ดํดํ๋ ๊ฒ์ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค.
์ ๊ณฑ ๋น์ฉ ํจ์ ๋๋จธ. ๋
ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ์ ๊ณฑ ์ ํด๋ฆฌ๋ ๋น์ฉ์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ๋ค์์ฒด ์์ ์ธก์ง์ ๊ฑฐ๋ฆฌ(geodesic distance)์ ๊ฐ์ ๋ค๋ฅธ ๋น์ฉ ํจ์์ ๋ํด์๋ ์ ์ฌํ ์ฐจ์ ๋
๋ฆฝ ์๋ ด ์๋๊ฐ ์ฑ๋ฆฝํ๋์ง๋ ๊ธฐํํ์ ๋ฐ์ดํฐ ๋ถ์ ์์ฉ์์ ์ค์ํ ๋ฌธ์ ์ด๋ค.
์ ์ด ํ์ต ํ๋ ์์ํฌ์ ๊ฒฝํ์ ๊ฒ์ฆ. ์ด๋ก ์ ์ ์ด ๊ฐ๋ฅ์ฑ ์ฒ๋๋ ๊ธฐ์กด ๋๋ฉ์ธ ์ ์(domain adaptation) ๋ฐฉ๋ฒ๋ค๊ณผ์ ๊ฒฝํ์ ๋ฒค์น๋งํน์ด ํ์ํ๋ค. ์ต์ ์์ก์์ ์ด๋ก ์ ์ฐ์ํจ๊ณผ ์ค์ฉ์ ํจ์ฉ์ฑ ์ฌ์ด์ ๊ฐ๊ทน์ ์ข
์ข
ํฌ๋ค.
๋งบ์๋ง
Rigollet๊ณผ Stromme์ ์ฐ๊ตฌ๋ ์ต์ ์์ก์ ํต๊ณ์ ํ ๋์์ ์ค์ํ ์ง์ ์ ๋ํ๋ธ๋ค. ์ํธ๋กํฝ ์ ์นํ๊ฐ ๊ณ์ฐ์ ๋ค๋ฃจ๊ธฐ ์ฌ์๋ฟ๋ง ์๋๋ผ ํต๊ณ์ ํจ์จ์ฑ๋ ๊ฐ์ ธ๋ค์ค๋ค๋ ๊ฒ์ ์ฆ๋ช
ํจ์ผ๋ก์จ, ๊ทธ๋ค์ OT ๋ฌธํ์์ ์ค๋ซ๋์ ์ง์๋์ด ์จ ๊ธด์ฅ์ ํด์ํ๋ค: ์ํธ๋กํฝ ๊ทผ์ฌ๊ฐ ํต๊ณ์ ์ผ๋ก ์์น์ ์ธ ๋์์ด๋ผ๊ธฐ๋ณด๋ค ๋จ์ํ ๊ณ์ฐ์์ ํธ์์ ๋ถ๊ณผํ๋ค๋ ์๊ตฌ์ฌ์ด ๋ฐ๋ก ๊ทธ๊ฒ์ด๋ค.
์ฐจ์ ๋
๋ฆฝ ์๋ ด ์๋๋ EOT๊ฐ ์ด๋ค ์๋ฏธ์์ ํต๊ณ์ ์์ฉ์ ์ํ ๊ณ ์ ์ OT์ ์ฌ๋ฐ๋ฅธ ์ํ(relaxation)์์ ์์ฌํ๋ค. ์ด ์ด๋ก ์ ํต์ฐฐ์ด ์ค์ ์ ๊ฐ์ ์ผ๋ก ์ด์ด์ง์ง, ํนํ ์ ์๋ค์ด ์ ์ํ ์ ์ด ํ์ต ํ๋ ์์ํฌ์์ ๊ทธ๋ฌํ ์ง๋ ์์ง ์ง์ผ๋ด์ผ ํ๋ค.