Paper ReviewMathematics & StatisticsCausal Inference
Bayesian Causal Inference in High Dimensions: From Nutritional Epidemiology to Electronic Health Records
Estimating causal effects from observational data is the central challenge of evidence-based medicine, policy, and social science. When confounders are high-dimensional—hundreds of dietary components, thousands of EHR variables—standard methods fail. Bayesian semiparametric approaches offer a principled path through this complexity.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Causal inference from observational data is among the most important and most treacherous tasks in quantitative science. We want to know: does this drug reduce mortality? Does this policy reduce inequality? Does this dietary pattern prevent cancer? Randomized experiments provide clean answers but are often infeasible—you cannot randomize people's diets for decades or randomly assign economic policies to countries.
Observational data offers scale and natural variation but introduces confounding: the factors that influence both the treatment and the outcome. In low-dimensional settings (a handful of known confounders), standard methods (regression adjustment, propensity score matching) handle confounding adequately. In high-dimensional settings—where confounders number in the hundreds or thousands—these methods break down. The challenge is not merely computational; it is statistical: with more confounders than observations, traditional estimation becomes impossible.
The 2025 research frontier addresses this through Bayesian semiparametric methods that combine the flexibility of nonparametric modeling (making minimal assumptions about functional forms) with the principled uncertainty quantification of Bayesian inference (providing credible intervals rather than point estimates).
Doubly Robust Bayesian Estimation
Sert et al. develop a Bayesian debiasing procedure for average treatment effect (ATE) estimation in the presence of high-dimensional nuisance parameters. The "nuisance" is the confounding structure—the complex relationships between covariates, treatment, and outcome that must be modeled but are not the primary target of inference.
The "doubly robust" property is key: the estimator provides valid causal estimates if either the outcome model (how the outcome depends on covariates) or the treatment model (how treatment assignment depends on covariates) is correctly specified—but not necessarily both. This robustness is valuable because in high-dimensional settings, we cannot be confident that either model is exactly correct.
The Bayesian implementation adds uncertainty quantification that frequentist doubly robust methods lack. Rather than reporting a single ATE estimate with a confidence interval (which may not have correct coverage in finite samples), the Bayesian approach produces a full posterior distribution over the ATE—enabling probabilistic statements like "there is a 95% probability that the treatment effect is between 0.3 and 0.7."
Nutritional Epidemiology: The Exposure Mapping Problem
Zorzetto et al. (2026) tackle a domain-specific challenge that illustrates the high-dimensional problem concretely: nutritional epidemiology. A person's diet consists of hundreds of correlated food components—macronutrients, micronutrients, phytochemicals, food additives—that interact in complex ways. Estimating the causal effect of any single dietary component (e.g., dietary fiber) requires adjusting for all other components that are correlated with it.
Standard approaches handle this by either selecting a few components for analysis (ignoring the rest) or creating dietary pattern scores (losing individual component effects). Zorzetto et al. propose a factor-based exposure mapping that uses Bayesian nonparametric factor models to identify latent dietary patterns from the high-dimensional nutrient data, then estimates causal effects of these interpretable patterns on health outcomes.
The factor model reduces the effective dimensionality of the exposure—from hundreds of correlated nutrients to a handful of orthogonal dietary patterns—while the Bayesian framework propagates uncertainty from the dimension reduction step through to the causal estimates. This uncertainty propagation is critical: ignoring the uncertainty in the factor extraction leads to overconfident causal claims.
Double Machine Learning for EHR Data
Du et al. apply double machine learning (DML) to causal inference in electronic health records—datasets with thousands of variables (diagnoses, procedures, medications, lab values, demographics) and millions of observations. DML uses machine learning models (random forests, neural networks, gradient boosting) to estimate the nuisance components (outcome and treatment models) and constructs a debiased estimator that achieves √n-convergence for the treatment effect even when the nuisance models converge at slower rates.
The EHR setting presents unique challenges:
- Irregular observation times: Patients are observed at clinic visits, not at regular intervals. Time between observations varies from days to years.
- Missing data patterns: Lab values are measured only when clinically indicated, creating informative missingness—the fact that a value is missing carries information about the patient's condition.
- Treatment confounding by indication: Sicker patients receive more treatments, creating confounding that standard methods struggle to handle.
DML addresses the high-dimensional confounding but does not automatically solve the irregular observation and informative missingness challenges—these require additional modeling assumptions that the paper carefully specifies.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Standard causal methods fail in high-dimensional settings | Well-established in causal inference literature | ✅ Well-documented |
| Bayesian doubly robust estimation provides valid uncertainty quantification | Sert et al. prove posterior consistency under double robustness | ✅ Supported (theoretical) |
| Factor-based exposure mapping reduces dietary confounding | Zorzetto et al. demonstrate on nutritional data | ✅ Supported |
| DML enables causal inference in high-dimensional EHR data | Du et al. demonstrate on large EHR datasets | ✅ Supported |
| These methods eliminate all confounding bias | Unobserved confounders remain a fundamental limitation | ❌ Observed confounders only |
Open Questions
Sensitivity analysis: All observational causal methods assume no unobserved confounding. How sensitive are the estimates to violations of this assumption? Bayesian sensitivity analysis methods exist but are not yet integrated with the high-dimensional methods reviewed here.Heterogeneous treatment effects: The methods focus on average treatment effects. In medicine and policy, individual-level treatment effects are often more relevant. Extending Bayesian semiparametric methods to conditional treatment effects in high dimensions is an open challenge.Temporal causal inference: EHR data is longitudinal. Treatment effects may vary over time, and treatments may affect both current outcomes and future treatment decisions (time-varying confounding). Extending these methods to the longitudinal setting requires marginal structural models or g-computation, which are not yet fully integrated with Bayesian high-dimensional methods.Computational scalability: Bayesian methods are computationally expensive—MCMC sampling in high dimensions is slow. Variational Bayes and other approximate inference methods can accelerate computation but may sacrifice the exact posterior inference that is the Bayesian framework's primary advantage.Transportability: Causal effects estimated from one population (patients at Hospital A) may not apply to another (patients at Hospital B). How do we assess and correct for differences between the estimation population and the target population?What This Means for Your Research
For biostatisticians and epidemiologists, the Bayesian semiparametric framework provides a principled approach to the high-dimensional confounding problem that is ubiquitous in observational health research. The doubly robust property provides insurance against model misspecification; the Bayesian framework provides honest uncertainty quantification.
For nutritional scientists, factor-based exposure mapping (Zorzetto et al.) offers a methodological advance over the ad hoc dietary pattern scores currently used in nutritional epidemiology—grounding pattern identification in a statistical framework that propagates uncertainty.
For clinical researchers using EHR data, DML (Du et al.) provides a scalable approach that leverages the strengths of modern ML (handling high-dimensional confounders) while maintaining the causal interpretation that observational research requires. The integration with EHR-specific challenges (irregular observation, informative missingness) makes this approach practically applicable rather than merely theoretically interesting.
면책 조항: 이 게시물은 정보 제공 목적의 연구 동향 개요이다. 특정 연구 결과, 통계 및 주장은 학술 연구에서 인용하기 전에 원본 논문을 통해 검증되어야 한다.
고차원에서의 베이지안 인과 추론: 영양 역학에서 전자 건강 기록까지
관측 데이터로부터의 인과 추론은 정량적 과학에서 가장 중요하면서도 가장 위험한 작업 중 하나이다. 우리는 다음과 같은 질문에 답하고자 한다: 이 약물이 사망률을 감소시키는가? 이 정책이 불평등을 줄이는가? 이 식이 패턴이 암을 예방하는가? 무작위 실험은 명확한 답을 제공하지만, 수십 년간 사람들의 식단을 무작위화하거나 국가별 경제 정책을 무작위로 배정하는 것이 불가능한 경우처럼, 실행이 어려울 때가 많다.
관측 데이터는 규모와 자연적 변동을 제공하지만, 교란(confounding)을 초래한다: 처치(treatment)와 결과(outcome) 모두에 영향을 미치는 요인들이 존재하기 때문이다. 저차원 환경(소수의 알려진 교란 변수)에서는 표준적인 방법(회귀 조정, 성향 점수 매칭)이 교란을 적절히 처리한다. 그러나 교란 변수가 수백 개에서 수천 개에 달하는 고차원 환경에서는 이러한 방법들이 무너진다. 이 과제는 단순히 계산상의 문제가 아니라 통계적 문제이다: 교란 변수의 수가 관측값의 수보다 많아지면 전통적인 추정이 불가능해진다.
2025년 연구의 최전선은 비모수적 모델링의 유연성(함수적 형태에 대한 최소한의 가정)과 베이지안 추론의 원칙적인 불확실성 정량화(점 추정 대신 신뢰 구간 제공)를 결합한 베이지안 반모수적(semiparametric) 방법을 통해 이 문제를 다루고 있다.
이중 강건 베이지안 추정
Sert 등은 고차원 누잉스(nuisance) 모수가 존재하는 상황에서 평균 처치 효과(average treatment effect, ATE) 추정을 위한 베이지안 편향 제거 절차(Bayesian debiasing procedure)를 개발한다. 여기서 '누잉스'란 교란 구조—공변량, 처치, 결과 간의 복잡한 관계로, 반드시 모델링되어야 하지만 추론의 주요 대상은 아닌—를 의미한다.
'이중 강건(doubly robust)' 속성이 핵심이다: 이 추정량은 결과 모델(결과가 공변량에 어떻게 의존하는가) 또는 처치 모델(처치 배정이 공변량에 어떻게 의존하는가) 중 어느 하나가 올바르게 설정된다면—반드시 둘 다일 필요는 없이—유효한 인과적 추정을 제공한다. 이 강건성은 고차원 환경에서 두 모델 중 어느 것도 정확히 올바르다고 확신할 수 없기 때문에 매우 유용하다.
베이지안 구현은 빈도주의적 이중 강건 방법이 갖추지 못한 불확실성 정량화를 추가한다. 유한 표본에서 올바른 포함율(coverage)을 보장하지 못할 수 있는 신뢰 구간과 함께 단일 ATE 추정값을 보고하는 대신, 베이지안 접근법은 ATE에 대한 완전한 사후 분포(posterior distribution)를 생성한다—이를 통해 "처치 효과가 0.3에서 0.7 사이일 확률이 95%이다"와 같은 확률적 진술이 가능해진다.
영양 역학: 노출 매핑 문제
Zorzetto 등(2026)은 고차원 문제를 구체적으로 보여주는 도메인 특화적 과제인 영양 역학(nutritional epidemiology)을 다룬다. 사람의 식단은 수백 가지의 상관된 식품 성분—다량 영양소, 미량 영양소, 파이토케미컬(phytochemical), 식품 첨가물—으로 구성되어 있으며, 이들은 복잡한 방식으로 상호작용한다. 특정 식이 성분(예: 식이 섬유)의 인과적 효과를 추정하려면 이와 상관된 다른 모든 성분을 조정해야 한다.
표준적인 접근법은 분석할 성분 몇 가지를 선택하거나(나머지는 무시), 식이 패턴 점수를 생성하는(개별 성분 효과를 상실) 방식으로 이 문제를 처리한다. Zorzetto 등은 베이지안 비모수적 요인 모델(Bayesian nonparametric factor model)을 사용하여 고차원 영양소 데이터에서 잠재적 식이 패턴을 식별한 후, 이 해석 가능한 패턴이 건강 결과에 미치는 인과적 효과를 추정하는 요인 기반 노출 매핑(factor-based exposure mapping)을 제안한다.
인자 모델은 노출의 실효 차원수를 수백 개의 상관된 영양소에서 소수의 직교하는 식이 패턴으로 축소하고, 베이지안 프레임워크는 차원 축소 단계의 불확실성을 인과 추정치까지 전파한다. 이 불확실성 전파는 매우 중요한데, 인자 추출의 불확실성을 무시하면 지나치게 자신감 있는 인과적 주장으로 이어지기 때문이다.
EHR 데이터를 위한 이중 기계 학습
Du et al.은 전자 의무기록(EHR)의 인과 추론에 이중 기계 학습(DML)을 적용한다. EHR은 수천 개의 변수(진단, 처치, 약물, 검사 수치, 인구통계)와 수백만 건의 관측을 포함하는 데이터셋이다. DML은 기계 학습 모델(랜덤 포레스트, 신경망, 경사 부스팅)을 활용해 누이선스 요소(결과 모델 및 처치 모델)를 추정하고, 누이선스 모델이 더 느린 수렴 속도를 가지더라도 처치 효과에 대해 √n-수렴을 달성하는 편향 제거 추정량을 구성한다.
EHR 환경은 고유한 과제를 제시한다:
- 불규칙한 관측 시점: 환자는 일정한 간격이 아니라 외래 방문 시에만 관측된다. 관측 간 시간 간격은 며칠에서 수년까지 다양하다.
- 결측 데이터 패턴: 검사 수치는 임상적으로 필요한 경우에만 측정되어 정보적 결측(informative missingness)이 발생하며, 값이 결측되었다는 사실 자체가 환자의 상태에 관한 정보를 담고 있다.
- 적응증에 의한 처치 교란: 더 아픈 환자일수록 더 많은 처치를 받아 표준적인 방법으로는 다루기 어려운 교란이 발생한다.
DML은 고차원 교란 문제를 해결하지만, 불규칙한 관측과 정보적 결측 문제를 자동으로 해결하지는 않는다. 이러한 문제들은 논문에서 신중하게 명시한 추가적인 모델링 가정을 필요로 한다.
주장과 근거
<
| 주장 | 근거 | 판정 |
|---|
| 표준 인과 방법은 고차원 환경에서 실패한다 | 인과 추론 문헌에서 잘 확립되어 있음 | ✅ 충분히 문서화됨 |
| 베이지안 이중 강건 추정은 유효한 불확실성 정량화를 제공한다 | Sert et al.이 이중 강건성 하에서의 사후 일치성을 증명함 | ✅ 지지됨 (이론적) |
| 인자 기반 노출 매핑은 식이 교란을 줄인다 | Zorzetto et al.이 영양 데이터에서 실증함 | ✅ 지지됨 |
| DML은 고차원 EHR 데이터에서 인과 추론을 가능하게 한다 | Du et al.이 대규모 EHR 데이터셋에서 실증함 | ✅ 지지됨 |
| 이러한 방법들이 모든 교란 편향을 제거한다 | 미관측 교란 변수는 근본적인 한계로 남아 있음 | ❌ 관측된 교란 변수에만 해당 |
미해결 과제
민감도 분석: 모든 관찰 연구 기반 인과 방법은 미관측 교란이 없다고 가정한다. 이 가정의 위반에 대해 추정치는 얼마나 민감한가? 베이지안 민감도 분석 방법이 존재하지만, 이 논문에서 검토한 고차원 방법과 아직 통합되지 않았다.이질적 처치 효과: 검토된 방법들은 평균 처치 효과에 초점을 맞춘다. 의학 및 정책 분야에서는 개인 수준의 처치 효과가 더 관련성이 높은 경우가 많다. 베이지안 반모수 방법을 고차원에서의 조건부 처치 효과로 확장하는 것은 미해결 과제로 남아 있다.시간적 인과 추론: EHR 데이터는 종단적이다. 처치 효과는 시간에 따라 변할 수 있으며, 처치는 현재의 결과와 미래의 처치 결정 모두에 영향을 미칠 수 있다(시간 가변 교란). 이러한 방법들을 종단적 환경으로 확장하려면 주변 구조 모델(marginal structural model) 또는 g-computation이 필요한데, 이는 아직 베이지안 고차원 방법과 완전히 통합되지 않았다.계산 확장성: 베이지안 방법은 계산 비용이 높으며, 고차원에서의 MCMC 샘플링은 느리다. 변분 베이즈(Variational Bayes) 및 기타 근사 추론 방법은 계산을 가속화할 수 있지만, 베이지안 프레임워크의 주요 장점인 정확한 사후 추론을 희생할 수 있다.
전달가능성(Transportability): 한 집단(A 병원 환자)에서 추정된 인과 효과가 다른 집단(B 병원 환자)에는 적용되지 않을 수 있다. 추정 집단과 목표 집단 간의 차이를 어떻게 평가하고 보정할 것인가?연구에 대한 시사점
생물통계학자와 역학자에게 있어, Bayesian 반모수 프레임워크는 관찰적 보건 연구에서 보편적으로 나타나는 고차원 교란 문제에 대한 원칙적 접근법을 제공한다. 이중 견고(doubly robust) 특성은 모형 오명세(model misspecification)에 대한 보험 역할을 하며, Bayesian 프레임워크는 정직한 불확실성 정량화를 가능하게 한다.
영양과학자에게 있어, 요인 기반 노출 매핑(factor-based exposure mapping)(Zorzetto et al.)은 현재 영양역학에서 사용되는 임시방편적(ad hoc) 식이 패턴 점수보다 방법론적으로 진일보한 방식으로, 불확실성을 전파하는 통계적 프레임워크 안에서 패턴 식별을 정립한다.
EHR 데이터를 활용하는 임상 연구자에게 있어, DML(Du et al.)은 현대 ML의 강점(고차원 교란변수 처리)을 활용하면서도 관찰 연구에서 요구되는 인과적 해석을 유지하는 확장 가능한 접근법을 제공한다. EHR 특유의 문제들(불규칙한 관측, 정보적 결측)과의 통합은 이 접근법을 단순히 이론적 흥미에 그치지 않고 실제로 적용 가능하게 만든다.
References (3)
[1] Sert, G., Chakrabortty, A., Bhattacharya, A. (2025). Bayesian Semiparametric Causal Inference: Targeted Doubly Robust Estimation of Treatment Effects. Semantic Scholar.
[2] Zorzetto, D., Xie, Z., Stamp, J. et al. (2026). Bayesian Nonparametric Causal Inference for High-Dimensional Nutritional Data via Factor-Based Exposure Mapping. Semantic Scholar.
[3] Du, M., Guo, Y., Li, X. et al. (2025). Double Machine Learning for Causal Inference in High-Dimensional Electronic Health Records. medRxiv.