Methodology GuideMathematics & StatisticsCausal Inference
Conformal Prediction Under Distribution Shift: Coverage Guarantees When the World Changes
Conformal prediction provides distribution-free coverage guaranteesโbut only when calibration and test data are exchangeable. Three 2025 papers extend CP to the real world: adaptive methods for drifting time series, optimal transport for distribution shift, and robust calibration under label corruption.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Uncertainty quantification is not optional for consequential predictions. A medical diagnosis without a confidence interval is a guess. A financial forecast without a prediction interval is a liability. A manufacturing quality prediction without an uncertainty band is an invitation to produce defective products.
Conformal prediction (CP) offers something that no other uncertainty quantification method provides: finite-sample, distribution-free coverage guarantees. For any predictive modelโneural network, random forest, linear regressionโCP constructs prediction sets that contain the true value with a user-specified probability (e.g., 90%), without any assumption about the data distribution or the model's correctness. This guarantee holds in finite samples, not just asymptotically.
The catch is exchangeability: CP assumes that calibration data and test data are drawn from the same distribution. In practice, distributions shiftโmanufacturing processes drift over time, patient populations change between hospitals, financial markets evolve. When exchangeability is violated, CP's coverage guarantee breaks, and prediction intervals may be misleadingly narrow or wastefully wide.
The 2025 research frontier addresses three distinct violations of exchangeability, extending CP's rigorous guarantees to the messy, non-stationary real world.
Adaptive CP for Temporal Drift
Zhang & Zhou (IEEE Transactions on Industrial Informatics) address the most common violation in industrial applications: temporal distribution shift in time series data. Manufacturing sensor readings, equipment performance metrics, and process quality indicators all drift over time as equipment ages, raw materials change, and operating conditions fluctuate.
Their adaptive conformal prediction maintains coverage under drift through a dynamic learning rate that tracks the empirical coverage of recent predictions:
- If recent coverage falls below the target (intervals are too narrow for the current distribution), the algorithm widens future intervals
- If recent coverage exceeds the target (intervals are wastefully wide), it narrows them
- The adaptation rate is itself adaptiveโresponding more aggressively to rapid shifts and more conservatively to gradual drift
The theoretical contribution is a convergence proof: under mild regularity conditions on the drift process, the long-run average coverage converges to the target rate. This is weaker than the finite-sample guarantee of standard CP (which holds exactly for each test point) but meaningful for applications where approximate coverage over time is acceptable.
Optimal Transport for Arbitrary Distribution Shifts
Correia & Louizos provide an elegant solution for a different violation scenario: arbitrary distribution shifts between calibration and test data, crucially without requiring prior knowledge of what type of shift has occurred. Existing methods for handling non-exchangeable CP typically require specifying the nature of the shift (e.g., covariate shift, label shift) before applying the correctionโa requirement that is often infeasible in practice.
Their insight: optimal transport can estimate the mapping between the calibration feature distribution and the test feature distribution using only unlabeled test data. This mapping enables reweighting of calibration nonconformity scores to reflect the test distribution, approximately restoring the coverage guaranteeโregardless of whether the shift is covariate shift, label shift, or a more complex combination.
The method requires no labels from the test distributionโonly features. This is practically significant because in many deployment scenarios (a medical model deployed at a new hospital, a quality model applied to a new factory), unlabeled data from the target domain is abundant even when labeled data is unavailable, and the nature of the distribution shift is unknown.
Robust CP Under Label Corruption
Feldman et al. address a third practical concern: corrupted calibration labels. Real-world calibration data contains annotation errorsโmislabeled examples, missing values, noisy measurements. Standard CP assumes correct calibration labels and provides no guarantee when this assumption is violated.
Their framework distinguishes between two types of label corruption:
- Missing labels: Some calibration examples have no label (missing completely at random or missing at random). The framework uses multiple imputation to generate plausible labels for missing entries, then applies CP with appropriate coverage adjustment.
- Noisy labels: Some calibration labels are incorrect. The framework uses density ratio reweighting to down-weight examples likely to be mislabeled, maintaining approximate coverage despite the noise.
A Practitioner's Decision Framework
For researchers and engineers choosing among CP variants, the decision depends on the nature of the exchangeability violation:
<
| Violation Type | Method | Data Requirement | Guarantee Strength |
|---|
| No violation (exchangeable) | Standard split CP | Labeled calibration set | Exact finite-sample |
| Temporal drift | Adaptive CP (Zhang & Zhou) | Recent prediction outcomes | Long-run average |
| Arbitrary distribution shift (type unknown) | OT-weighted CP (Correia & Louizos) | Unlabeled test features | Approximate |
| Label corruption | Robust CP (Feldman et al.) | Corruption rate estimate | Approximate |
| Multiple violations | Combination needed | Domain-specific design | Case-by-case |
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Standard CP provides exact finite-sample coverage | Mathematical proof under exchangeability | โ
Proven |
| Adaptive CP maintains coverage under temporal drift | Convergence proof + empirical validation on industrial data | โ
Supported |
| OT-based reweighting restores coverage under arbitrary distribution shift (without knowing shift type) | Theoretical bounds + experimental validation | โ
Supported |
| Robust CP handles label corruption gracefully | Framework with theoretical analysis; empirical validation | โ
Supported |
| A single CP method handles all types of distribution shift | Each method addresses a specific violation type | โ No universal method |
Open Questions
Conditional coverage: All methods discussed provide marginal coverage (averaged over the test distribution). Can we achieve conditional coverage (valid for specific subgroups) under distribution shift? This is substantially harder and remains open.Multi-dimensional prediction sets: CP for scalar outputs is well-understood. For vector-valued outputs (multi-target regression, image reconstruction), constructing efficient prediction sets with valid coverage is an active research area.Online learning integration: Can CP be integrated with online learning algorithms that continuously update the predictive model? The interaction between model updates and calibration set management creates non-trivial challenges.Adversarial shift: The methods above assume natural (non-adversarial) distribution shift. Under adversarial shiftโwhere an attacker deliberately manipulates the test distribution to invalidate CP guaranteesโdifferent defenses are needed.Computational cost: OT-based reweighting and multiple imputation add computational overhead to CP. For real-time applications, this overhead must be bounded. What are the minimal-cost approximations that maintain coverage?What This Means for Your Research
For statisticians, conformal prediction under distribution shift is a vibrant research frontier where theoretical rigor meets practical necessity. The three papers reviewed here demonstrate that CP's foundational insights (using calibration residuals to construct prediction sets) are flexible enough to accommodate violations that the original framework did not anticipate.
For ML practitioners, CP should be the default uncertainty quantification method for any deployment where prediction errors have consequences. The distribution shift extensions reviewed here remove the primary objection to CP adoption ("my data isn't exchangeable")โproviding robust uncertainty quantification that is practical, theoretically grounded, and model-agnostic.
For domain scientists (industrial engineers, clinicians, environmental scientists) who use ML predictions as inputs to decisions, CP provides something no other method offers: a prediction interval you can trustโnot because the model is perfect, but because the coverage guarantee holds regardless of model quality.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
๋ถํฌ ๋ณํ ํ์์์ ๊ณตํ ์์ธก: ์ธ๊ณ๊ฐ ๋ณํ ๋์ ์ปค๋ฒ๋ฆฌ์ง ๋ณด์ฅ
๊ฒฐ๊ณผ๊ฐ ์ค์ํ ์์ธก์์ ๋ถํ์ค์ฑ ์ ๋ํ๋ ์ ํ ์ฌํญ์ด ์๋๋ค. ์ ๋ขฐ ๊ตฌ๊ฐ์ด ์๋ ์ํ์ ์ง๋จ์ ์ถ์ธก์ ๋ถ๊ณผํ๋ค. ์์ธก ๊ตฌ๊ฐ์ด ์๋ ๊ธ์ต ์์ธก์ ๋ฒ์ ์ฑ
์์ ์ด๋ํ๋ค. ๋ถํ์ค์ฑ ๋ฒ์๊ฐ ์๋ ์ ์กฐ ํ์ง ์์ธก์ ๋ถ๋ํ ์์ฐ์ ์ด๋ํ๋ค.
๊ณตํ ์์ธก(CP)์ ๋ค๋ฅธ ์ด๋ค ๋ถํ์ค์ฑ ์ ๋ํ ๋ฐฉ๋ฒ๋ ์ ๊ณตํ์ง ๋ชปํ๋ ๊ฒ์ ์ ๊ณตํ๋ค: ์ ํ ํ๋ณธ, ๋ถํฌ ๋ฌด๊ด ์ปค๋ฒ๋ฆฌ์ง ๋ณด์ฅ. ์ ๊ฒฝ๋ง, ๋๋ค ํฌ๋ ์คํธ, ์ ํ ํ๊ท ๋ฑ ์ด๋ ํ ์์ธก ๋ชจ๋ธ์ ๋ํด์๋, CP๋ ๋ฐ์ดํฐ ๋ถํฌ๋ ๋ชจ๋ธ์ ์ ํ์ฑ์ ๋ํ ์ด๋ ํ ๊ฐ์ ์์ด ์ฌ์ฉ์๊ฐ ์ง์ ํ ํ๋ฅ (์: 90%)๋ก ์ค์ ๊ฐ์ ํฌํจํ๋ ์์ธก ์งํฉ์ ๊ตฌ์ฑํ๋ค. ์ด ๋ณด์ฅ์ ์ ๊ทผ์ ์ผ๋ก๋ง ์ฑ๋ฆฝํ๋ ๊ฒ์ด ์๋๋ผ ์ ํ ํ๋ณธ์์๋ ์ฑ๋ฆฝํ๋ค.
๋ฌธ์ ๋ ๊ตํ ๊ฐ๋ฅ์ฑ์ด๋ค: CP๋ ๋ณด์ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ๊ฐ ๋์ผํ ๋ถํฌ์์ ์ถ์ถ๋๋ค๊ณ ๊ฐ์ ํ๋ค. ์ค์ ๋ก๋ ๋ถํฌ๊ฐ ๋ณํํ๋คโ์ ์กฐ ๊ณต์ ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ณํํ๊ณ , ํ์ ์ง๋จ์ ๋ณ์๋ง๋ค ๋ฌ๋ผ์ง๋ฉฐ, ๊ธ์ต ์์ฅ์ ์งํํ๋ค. ๊ตํ ๊ฐ๋ฅ์ฑ์ด ์๋ฐ๋๋ฉด CP์ ์ปค๋ฒ๋ฆฌ์ง ๋ณด์ฅ์ด ๋ฌด๋์ง๊ณ , ์์ธก ๊ตฌ๊ฐ์ด ์คํด๋ฅผ ๋ถ๋ฌ์ผ์ผํฌ ๋งํผ ์ข์์ง๊ฑฐ๋ ๋ญ๋น์ ์ผ๋ก ๋์ด์ง ์ ์๋ค.
2025๋
์ฐ๊ตฌ ์ต์ ์ ์ ๊ตํ ๊ฐ๋ฅ์ฑ์ ์ธ ๊ฐ์ง ์๋ฐ ์ ํ์ ๋ค๋ฃจ๋ฉฐ, CP์ ์๊ฒฉํ ๋ณด์ฅ์ ๋ณต์กํ๊ณ ๋น์ ์์ ์ธ ์ค์ ์ธ๊ณ๋ก ํ์ฅํ๋ค.
์๊ฐ์ ๋๋ฆฌํํธ๋ฅผ ์ํ ์ ์ํ CP
Zhang & Zhou (IEEE Transactions on Industrial Informatics)๋ ์ฐ์
์์ฉ์์ ๊ฐ์ฅ ํํ ์๋ฐ ์ ํ์ธ ์๊ณ์ด ๋ฐ์ดํฐ์ ์๊ฐ์ ๋ถํฌ ๋ณํ๋ฅผ ๋ค๋ฃฌ๋ค. ์ ์กฐ ์ผ์ ํ๋
๊ฐ, ์ฅ๋น ์ฑ๋ฅ ์งํ, ๊ณต์ ํ์ง ์งํ๋ ์ฅ๋น ๋
ธํํ, ์์์ฌ ๋ณ๊ฒฝ, ์ด์ ์กฐ๊ฑด ๋ณ๋์ ๋ฐ๋ผ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ชจ๋ ๋ณํํ๋ค.
๊ทธ๋ค์ ์ ์ํ ๊ณตํ ์์ธก์ ์ต๊ทผ ์์ธก์ ๊ฒฝํ์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ถ์ ํ๋ ๋์ ํ์ต๋ฅ ์ ํตํด ๋๋ฆฌํํธ ํ์์๋ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ์งํ๋ค:
- ์ต๊ทผ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ๋ชฉํ์น๋ฅผ ๋ฐ๋๋ฉด(ํ์ฌ ๋ถํฌ์ ๋ํด ๊ตฌ๊ฐ์ด ๋๋ฌด ์ข์ผ๋ฉด), ์๊ณ ๋ฆฌ์ฆ์ ํฅํ ๊ตฌ๊ฐ์ ๋ํ๋ค
- ์ต๊ทผ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ๋ชฉํ์น๋ฅผ ์ด๊ณผํ๋ฉด(๊ตฌ๊ฐ์ด ๋ญ๋น์ ์ผ๋ก ๋์ผ๋ฉด), ๊ตฌ๊ฐ์ ์ขํ๋ค
- ์ ์ ์๋ ์์ฒด๋ ์ ์์ ์ด๋คโ๊ธ๊ฒฉํ ๋ณํ์๋ ๋ ๊ณต๊ฒฉ์ ์ผ๋ก, ์ ์ง์ ์ธ ๋๋ฆฌํํธ์๋ ๋ ๋ณด์์ ์ผ๋ก ๋ฐ์ํ๋ค
์ด๋ก ์ ๊ธฐ์ฌ๋ ์๋ ด ์ฆ๋ช
์ด๋ค: ๋๋ฆฌํํธ ๊ณผ์ ์ ๋ํ ์๋งํ ์ ์น ์กฐ๊ฑด ํ์์, ์ฅ๊ธฐ ํ๊ท ์ปค๋ฒ๋ฆฌ์ง๋ ๋ชฉํ์จ๋ก ์๋ ดํ๋ค. ์ด๋ ํ์ค CP์ ์ ํ ํ๋ณธ ๋ณด์ฅ(๊ฐ ํ
์คํธ ํฌ์ธํธ์ ๋ํด ์ ํํ๊ฒ ์ฑ๋ฆฝ)๋ณด๋ค ์ฝํ์ง๋ง, ์๊ฐ์ ๋ฐ๋ฅธ ๊ทผ์ฌ์ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ํ์ฉ๋๋ ์์ฉ์์๋ ์๋ฏธ ์๋ ๊ฒฐ๊ณผ์ด๋ค.
์์์ ๋ถํฌ ๋ณํ๋ฅผ ์ํ ์ต์ ์์ก
Correia & Louizos๋ ๋ค๋ฅธ ์๋ฐ ์๋๋ฆฌ์ค์ ๋ํ ์ฐ์ํ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค: ๋ฐ์ํ ๋ณํ์ ์ ํ์ ๋ํ ์ฌ์ ์ง์ ์์ด๋ ๋์ฒํ ์ ์๋ค๋ ์ ์ด ํต์ฌ์ธ, ๋ณด์ ๋ฐ์ดํฐ์ ํ
์คํธ ๋ฐ์ดํฐ ๊ฐ์ ์์์ ๋ถํฌ ๋ณํ์ด๋ค. ๊ตํ ๋ถ๊ฐ๋ฅํ CP๋ฅผ ์ฒ๋ฆฌํ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์์ ์ ์ ์ฉํ๊ธฐ ์ ์ ๋ณํ์ ์ฑ๊ฒฉ(์: ๊ณต๋ณ๋ ๋ณํ, ๋ ์ด๋ธ ๋ณํ)์ ๋ช
์ํด์ผ ํ๋๋ฐ, ์ด๋ ์ค์ ๋ก ์คํ ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๊ทธ๋ค์ ํต์ฐฐ: ์ต์ ์์ก์ ๋ ์ด๋ธ์ด ์๋ ํ
์คํธ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์ฌ ๋ณด์ ํน์ฑ ๋ถํฌ์ ํ
์คํธ ํน์ฑ ๋ถํฌ ๊ฐ์ ๋งคํ์ ์ถ์ ํ ์ ์๋ค. ์ด ๋งคํ์ ํ
์คํธ ๋ถํฌ๋ฅผ ๋ฐ์ํ๋๋ก ๋ณด์ ๋น์ ํฉ๋ ์ ์๋ฅผ ์ฌ๊ฐ์ค์นํํ์ฌ, ๋ณํ๊ฐ ๊ณต๋ณ๋ ๋ณํ์ธ์ง, ๋ ์ด๋ธ ๋ณํ์ธ์ง, ๋๋ ๋ ๋ณต์กํ ์กฐํฉ์ธ์ง์ ๊ด๊ณ์์ด ์ปค๋ฒ๋ฆฌ์ง ๋ณด์ฅ์ ๊ทผ์ฌ์ ์ผ๋ก ๋ณต์ํ๋ค.
์ด ๋ฐฉ๋ฒ์ ํ
์คํธ ๋ถํฌ์์ ๋ ์ด๋ธ์ด ํ์ํ์ง ์์ผ๋ฉฐ, ์ค์ง ํผ์ฒ(feature)๋ง ํ์ํ๋ค. ์ด๋ ์ค์ฉ์ ์ผ๋ก ์ค์ํ ์๋ฏธ๋ฅผ ์ง๋๋ค. ์๋ํ๋ฉด ๋ง์ ๋ฐฐํฌ ์๋๋ฆฌ์ค(์๋ก์ด ๋ณ์์ ๋ฐฐํฌ๋ ์๋ฃ ๋ชจ๋ธ, ์๋ก์ด ๊ณต์ฅ์ ์ ์ฉ๋ ํ์ง ๋ชจ๋ธ ๋ฑ)์์, ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ต๊ณ ๋ถํฌ ์ด๋์ ํน์ฑ์ ์ ์ ์๋ ๊ฒฝ์ฐ์๋, ๋์ ๋๋ฉ์ธ(target domain)์ผ๋ก๋ถํฐ ๋ ์ด๋ธ๋์ง ์์ ๋ฐ์ดํฐ๋ ํ๋ถํ๊ฒ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ ์ด๋ธ ์ค์ผ์ ๊ฐ๊ฑดํ CP
Feldman ๋ฑ์ ์ธ ๋ฒ์งธ ์ค์ฉ์ ๋ฌธ์ , ์ฆ ์ค์ผ๋ ์บ๋ฆฌ๋ธ๋ ์ด์
(calibration) ๋ ์ด๋ธ์ ๋ค๋ฃฌ๋ค. ์ค์ธ๊ณ์ ์บ๋ฆฌ๋ธ๋ ์ด์
๋ฐ์ดํฐ์๋ ์ฃผ์ ์ค๋ฅ, ์๋ชป ๋ ์ด๋ธ๋ ์์, ๋๋ฝ๋ ๊ฐ, ๋
ธ์ด์ฆ๊ฐ ํฌํจ๋ ์ธก์ ๊ฐ ๋ฑ์ ์ด๋
ธํ
์ด์
์ค๋ฅ๊ฐ ์กด์ฌํ๋ค. ํ์ค CP๋ ์บ๋ฆฌ๋ธ๋ ์ด์
๋ ์ด๋ธ์ด ์ ํํ๋ค๊ณ ๊ฐ์ ํ๋ฉฐ, ์ด ๊ฐ์ ์ด ์๋ฐ๋ ๊ฒฝ์ฐ ์ด๋ ํ ๋ณด์ฅ๋ ์ ๊ณตํ์ง ์๋๋ค.
์ด๋ค์ ํ๋ ์์ํฌ(framework)๋ ๋ ์ด๋ธ ์ค์ผ์ ๋ ๊ฐ์ง ์ ํ์ผ๋ก ๊ตฌ๋ถํ๋ค:
- ๋๋ฝ ๋ ์ด๋ธ: ์ผ๋ถ ์บ๋ฆฌ๋ธ๋ ์ด์
์์์ ๋ ์ด๋ธ์ด ์๋ ๊ฒฝ์ฐ(์์ ๋ฌด์์ ๋๋ฝ ๋๋ ๋ฌด์์ ๋๋ฝ). ์ด ํ๋ ์์ํฌ๋ ๋ค์ค ๋์ฒด(multiple imputation)๋ฅผ ์ฌ์ฉํ์ฌ ๋๋ฝ๋ ํญ๋ชฉ์ ๋ํ ๊ทธ๋ด๋ฏํ ๋ ์ด๋ธ์ ์์ฑํ ํ, ์ ์ ํ ์ปค๋ฒ๋ฆฌ์ง(coverage) ์กฐ์ ์ ์ ์ฉํ์ฌ CP๋ฅผ ์ํํ๋ค.
- ๋
ธ์ด์ฆ ๋ ์ด๋ธ: ์ผ๋ถ ์บ๋ฆฌ๋ธ๋ ์ด์
๋ ์ด๋ธ์ด ์๋ชป๋ ๊ฒฝ์ฐ. ์ด ํ๋ ์์ํฌ๋ ๋ฐ๋ ๋น์จ ์ฌ๊ฐ์ค์น(density ratio reweighting)๋ฅผ ์ฌ์ฉํ์ฌ ์๋ชป ๋ ์ด๋ธ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ ์์์ ๊ฐ์ค์น๋ฅผ ๋ฎ์ถ๊ณ , ๋
ธ์ด์ฆ์๋ ๋ถ๊ตฌํ๊ณ ๊ทผ์ฌ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ์งํ๋ค.
์ค๋ฌด์๋ฅผ ์ํ ์์ฌ๊ฒฐ์ ํ๋ ์์ํฌ
CP ๋ณํ๋ค ์ค์์ ์ ํํด์ผ ํ๋ ์ฐ๊ตฌ์์ ์์ง๋์ด์๊ฒ, ๊ฒฐ์ ์ ๊ตํ๊ฐ๋ฅ์ฑ(exchangeability) ์๋ฐ์ ํน์ฑ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค:
<
| ์๋ฐ ์ ํ | ๋ฐฉ๋ฒ | ๋ฐ์ดํฐ ์๊ตฌ์ฌํญ | ๋ณด์ฅ ๊ฐ๋ |
|---|
| ์๋ฐ ์์ (๊ตํ๊ฐ๋ฅ) | ํ์ค ๋ถํ CP | ๋ ์ด๋ธ๋ ์บ๋ฆฌ๋ธ๋ ์ด์
์ธํธ | ์ ํํ ์ ํ ํ๋ณธ |
| ์๊ฐ์ ๋๋ฆฌํํธ(temporal drift) | ์ ์ํ CP (Zhang & Zhou) | ์ต๊ทผ ์์ธก ๊ฒฐ๊ณผ | ์ฅ๊ธฐ ํ๊ท |
| ์์์ ๋ถํฌ ์ด๋ (์ ํ ๋ฏธ์ง) | OT ๊ฐ์ค CP (Correia & Louizos) | ๋ ์ด๋ธ ์๋ ํ
์คํธ ํผ์ฒ | ๊ทผ์ฌ |
| ๋ ์ด๋ธ ์ค์ผ | ๊ฐ๊ฑด CP (Feldman ๋ฑ) | ์ค์ผ๋ฅ ์ถ์ ์น | ๊ทผ์ฌ |
| ๋ณตํฉ ์๋ฐ | ์กฐํฉ ํ์ | ๋๋ฉ์ธ๋ณ ์ค๊ณ | ์ฌ๋ก๋ณ |
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ํ์ค CP๋ ์ ํํ ์ ํ ํ๋ณธ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ๊ณตํ๋ค | ๊ตํ๊ฐ๋ฅ์ฑ ํ์์์ ์ํ์ ์ฆ๋ช
| โ
์ฆ๋ช
๋จ |
| ์ ์ํ CP๋ ์๊ฐ์ ๋๋ฆฌํํธ ํ์์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ์งํ๋ค | ์๋ ด ์ฆ๋ช
+ ์ฐ์
๋ฐ์ดํฐ์ ๋ํ ์ค์ฆ ๊ฒ์ฆ | โ
์ง์ง๋จ |
| OT ๊ธฐ๋ฐ ์ฌ๊ฐ์ค์น๋ ์์์ ๋ถํฌ ์ด๋ ํ์์ (์ด๋ ์ ํ์ ์์ง ๋ชปํด๋) ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ณต์ํ๋ค | ์ด๋ก ์ ๊ฒฝ๊ณ + ์คํ์ ๊ฒ์ฆ | โ
์ง์ง๋จ |
| ๊ฐ๊ฑด CP๋ ๋ ์ด๋ธ ์ค์ผ์ ์ ์ ํ ์ฒ๋ฆฌํ๋ค | ์ด๋ก ์ ๋ถ์์ ํฌํจํ ํ๋ ์์ํฌ; ์ค์ฆ ๊ฒ์ฆ | โ
์ง์ง๋จ |
| ๋จ์ผ CP ๋ฐฉ๋ฒ์ด ๋ชจ๋ ์ ํ์ ๋ถํฌ ์ด๋์ ์ฒ๋ฆฌํ๋ค | ๊ฐ ๋ฐฉ๋ฒ์ ํน์ ์๋ฐ ์ ํ์ ๋์ํจ | โ ๋ฒ์ฉ ๋ฐฉ๋ฒ ์์ |
๋ฏธํด๊ฒฐ ๋ฌธ์
์กฐ๊ฑด๋ถ ์ปค๋ฒ๋ฆฌ์ง: ๋
ผ์๋ ๋ชจ๋ ๋ฐฉ๋ฒ์ ์ฃผ๋ณ(marginal) ์ปค๋ฒ๋ฆฌ์ง(ํ
์คํธ ๋ถํฌ์ ๋ํด ํ๊ท ํ๋จ)๋ฅผ ์ ๊ณตํ๋ค. ๋ถํฌ ์ด๋ ํ์์ ์กฐ๊ฑด๋ถ ์ปค๋ฒ๋ฆฌ์ง(ํน์ ํ์ ๊ทธ๋ฃน์ ๋ํด ์ ํจํ)๋ฅผ ๋ฌ์ฑํ ์ ์๋๊ฐ? ์ด๋ ์ค์ง์ ์ผ๋ก ๋ ์ด๋ ค์ด ๋ฌธ์ ์ด๋ฉฐ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ์ํ๋ก ๋จ์ ์๋ค.๋ค์ฐจ์ ์์ธก ์งํฉ: ์ค์นผ๋ผ ์ถ๋ ฅ์ ๋ํ CP๋ ์ ์ดํด๋์ด ์๋ค. ๋ฒกํฐ ๊ฐ ์ถ๋ ฅ(๋ค์ค ํ๊น ํ๊ท, ์ด๋ฏธ์ง ๋ณต์)์ ๊ฒฝ์ฐ, ์ ํจํ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๊ฐ์ถ ํจ์จ์ ์ธ ์์ธก ์งํฉ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ํ๋ฐํ ์ฐ๊ตฌ ๋ถ์ผ์ด๋ค.์จ๋ผ์ธ ํ์ต ํตํฉ: CP๋ฅผ ์์ธก ๋ชจ๋ธ์ ์ง์์ ์ผ๋ก ์
๋ฐ์ดํธํ๋ ์จ๋ผ์ธ ํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ ํตํฉํ ์ ์๋๊ฐ? ๋ชจ๋ธ ์
๋ฐ์ดํธ์ ์บ๋ฆฌ๋ธ๋ ์ด์
์ธํธ ๊ด๋ฆฌ ์ฌ์ด์ ์ํธ์์ฉ์ ์๋ช
ํ์ง ์์ ๊ณผ์ ๋ฅผ ์ผ๊ธฐํ๋ค.์ ๋์ ์ด๋(adversarial shift): ์์ ๋ฐฉ๋ฒ๋ค์ ์์ฐ์ (๋น์ ๋์ ) ๋ถํฌ ์ด๋์ ๊ฐ์ ํ๋ค. ๊ณต๊ฒฉ์๊ฐ CP ๋ณด์ฅ์ ๋ฌดํจํํ๊ธฐ ์ํด ์๋์ ์ผ๋ก ํ
์คํธ ๋ถํฌ๋ฅผ ์กฐ์ํ๋ ์ ๋์ ์ด๋ ํ์์๋ ๋ค๋ฅธ ๋ฐฉ์ด ์๋จ์ด ํ์ํ๋ค.
๊ณ์ฐ ๋น์ฉ: OT ๊ธฐ๋ฐ ์ฌ๊ฐ์ค์น ๋ถ์ฌ์ ๋ค์ค ๋์
(multiple imputation)์ CP์ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ถ๊ฐํ๋ค. ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์
์ ๊ฒฝ์ฐ, ์ด ์ค๋ฒํค๋๋ ์ ํ์ ์ด์ด์ผ ํ๋ค. ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ์ ์งํ๋ ์ต์ ๋น์ฉ ๊ทผ์ฌ๋ ๋ฌด์์ธ๊ฐ?์ฐ๊ตฌ์ ๋ํ ์์ฌ์
ํต๊ณํ์๋ค์๊ฒ ์์ด, ๋ถํฌ ๋ณํ ํ์์์ conformal prediction์ ์ด๋ก ์ ์๋ฐ์ฑ๊ณผ ์ค์ ์ ํ์์ฑ์ด ๋ง๋๋ ํ๋ฐํ ์ฐ๊ตฌ ์ต์ ์ ์ด๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์ ๊ฒํ ํ ์ธ ํธ์ ๋
ผ๋ฌธ์ CP์ ๊ทผ๋ณธ์ ์ธ ํต์ฐฐ(์์ธก ์งํฉ์ ๊ตฌ์ฑํ๊ธฐ ์ํด ๋ณด์ ์์ฐจ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ)์ด ์๋์ ํ๋ ์์ํฌ๊ฐ ์์ํ์ง ๋ชปํ๋ ์๋ฐ ์ฌํญ๋ค์ ์์ฉํ ๋งํผ ์ถฉ๋ถํ ์ ์ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
ML ์ค๋ฌด์๋ค์๊ฒ ์์ด, CP๋ ์์ธก ์ค๋ฅ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ ๋ชจ๋ ๋ฐฐํฌ ํ๊ฒฝ์์ ๊ธฐ๋ณธ ๋ถํ์ค์ฑ ์ ๋ํ ๋ฐฉ๋ฒ์ด ๋์ด์ผ ํ๋ค. ์ฌ๊ธฐ์ ๊ฒํ ํ ๋ถํฌ ๋ณํ ํ์ฅ ๊ธฐ๋ฒ๋ค์ CP ๋์
์ ๋ํ ์ฃผ์ ๋ฐ๋ก ("๋ด ๋ฐ์ดํฐ๋ ๊ตํ ๊ฐ๋ฅํ์ง ์๋ค")์ ์ ๊ฑฐํ์ฌ, ์ค์ฉ์ ์ด๊ณ ์ด๋ก ์ ์ผ๋ก ๊ทผ๊ฑฐ๊ฐ ์์ผ๋ฉฐ ๋ชจ๋ธ์ ๊ตฌ์ ๋ฐ์ง ์๋ ๊ฐ๊ฑดํ ๋ถํ์ค์ฑ ์ ๋ํ๋ฅผ ์ ๊ณตํ๋ค.
ML ์์ธก์ ์์ฌ๊ฒฐ์ ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๋๋ฉ์ธ ๊ณผํ์๋ค(์ฐ์
์์ง๋์ด, ์์์, ํ๊ฒฝ ๊ณผํ์)์๊ฒ ์์ด, CP๋ ๋ค๋ฅธ ์ด๋ค ๋ฐฉ๋ฒ๋ ์ ๊ณตํ์ง ๋ชปํ๋ ๊ฒ์ ์ ๊ณตํ๋ค: ์ ๋ขฐํ ์ ์๋ ์์ธก ๊ตฌ๊ฐโ๋ชจ๋ธ์ด ์๋ฒฝํ๊ธฐ ๋๋ฌธ์ด ์๋๋ผ, ๋ชจ๋ธ ํ์ง๊ณผ ๋ฌด๊ดํ๊ฒ ์ปค๋ฒ๋ฆฌ์ง ๋ณด์ฅ์ด ์ ์ง๋๊ธฐ ๋๋ฌธ์ด๋ค.
References (3)
[1] Zhang, R. & Zhou, P. (2025). Uncertainty Quantification Based on Conformal Prediction for Industrial Time Series With Distribution Shift. IEEE TII.
[2] Correia, A. & Louizos, C. (2025). Non-exchangeable Conformal Prediction with Optimal Transport: Tackling Distribution Shifts with Unlabeled Data. arXiv:2507.10425.
[3] Feldman, S., Bates, S., Romano, Y. (2025). Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting. arXiv:2505.04733.