Paper ReviewMathematics & StatisticsCausal Inference
Learning Causal Graphs from High-Dimensional Time Series: Bayesian DAG Structure Discovery
Multivariate time series—financial markets, brain signals, climate systems—are governed by causal relationships encoded in directed acyclic graphs. Learning these causal structures from high-dimensional data is one of the hardest problems in modern statistics, and Bayesian methods offer principled uncertainty quantification over possible causal graphs.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Understanding causal relationships in complex systems—financial markets, neural circuits, gene regulatory networks, climate teleconnections—requires more than correlation analysis. Correlation tells you that two variables move together; causation tells you that changing one causes the other to change. The mathematical language for causal relationships is the directed acyclic graph (DAG), where nodes represent variables and directed edges represent causal influences.
Learning DAGs from observational data is fundamentally harder than learning correlations. The number of possible DAGs over p variables grows super-exponentially: for p = 20 variables, there are roughly 10³⁰ possible DAG structures—a number that grows super-exponentially and reaches truly astronomical scales for larger networks. For time series data, where each variable at each time point is a node, the dimensionality explodes further.
Roy et al. develop a Bayesian framework for learning stationary DAG structures from high-dimensional multivariate time series—a setting common in econometrics (hundreds of financial instruments), neuroscience (hundreds of brain regions), and climate science (hundreds of spatial grid points).
The Stationarity Assumption
The key modeling assumption is stationarity: the causal structure does not change over time. The DAG that governs how today's stock prices influence tomorrow's is the same DAG that governed last month's dynamics. This assumption is strong but enables powerful inference: the entire time series provides evidence about a single, time-invariant causal structure.
Under stationarity, the DAG encodes both contemporaneous causation (variable A at time t causes variable B at time t) and lagged causation (variable A at time t causes variable B at time t+1, t+2, etc.). The lag structure captures the temporal dynamics of the system—how quickly causal effects propagate.
Roy et al.'s Bayesian approach places a prior distribution over DAG structures and uses MCMC sampling to explore the posterior distribution—the set of DAG structures that are consistent with the observed data, weighted by their probability. This posterior provides several advantages over point-estimate methods (which return a single "best" DAG):
- Uncertainty quantification: For each potential causal edge, the posterior provides a probability that the edge exists—enabling researchers to distinguish confident causal claims from uncertain ones
- Model averaging: Predictions can be averaged over multiple plausible DAG structures rather than conditioned on a single uncertain structure
- Edge discovery: Edges that appear in most posterior samples are robust causal relationships; edges that appear rarely are uncertain and should not be reported without qualification
Structural Optimization for Classification
Li et al. complement the time series setting with a focus on high-dimensional classification—where DAG structure is used not to discover causal mechanisms but to improve predictive performance. Their approach optimizes the Bayesian network structure to maximize classification accuracy while maintaining the DAG's interpretability.
The optimization uses evolutionary algorithms to search the DAG structure space—a heuristic approach that is less principled than full Bayesian inference but more computationally tractable for very high-dimensional settings. The trade-off is explicit: faster structure learning at the cost of less rigorous uncertainty quantification.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Bayesian DAG learning provides uncertainty over causal structures | Roy et al. demonstrate posterior sampling over DAGs | ✅ Supported |
| Stationarity enables efficient inference from time series | Consistent data under one structure is more informative than non-stationary data | ✅ Supported (when stationarity holds) |
| Full Bayesian DAG inference scales to high dimensions | Computational cost limits current methods to moderate dimensions (~50-100 variables) | ⚠️ Moderately scalable |
| DAG structure improves classification in high dimensions | Li et al. demonstrate improvement on benchmark datasets | ✅ Supported |
Open Questions
Non-stationary DAGs: What if the causal structure changes over time (regime switches, structural breaks)? Extending Bayesian DAG learning to non-stationary settings requires change-point detection integrated with structure learning—a substantially harder problem.Latent confounders: DAG learning assumes all relevant variables are observed. If important confounders are unmeasured, the learned DAG may contain spurious edges. How do we detect and account for latent confounders in DAG structure learning?Scalability: Full Bayesian DAG inference requires MCMC over a space that grows super-exponentially with dimension. Current methods scale to dozens or perhaps low hundreds of variables. How do we extend to the thousands of variables common in genomics and climate science?Intervention vs. observation: DAGs learned from observational data identify causal directions only under assumptions (faithfulness, causal sufficiency). Experimental interventions provide stronger identification. How do we optimally combine observational and experimental data for DAG learning?What This Means for Your Research
For statisticians and econometricians, Bayesian DAG learning provides a principled framework for causal discovery that honestly quantifies uncertainty—a critical requirement for any causal claim from observational data.
For neuroscientists studying brain connectivity, DAG models applied to fMRI or EEG time series can distinguish functional connectivity (correlation) from effective connectivity (causation)—a distinction that determines whether an observed brain network reflects causal information flow or merely shared input.
For climate scientists, DAG models can formalize teleconnections—the causal pathways by which El Niño affects Indian monsoons or Arctic sea ice affects mid-latitude weather. Quantifying the uncertainty in these causal pathways is essential for climate prediction and attribution.
면책 조항: 이 게시물은 정보 제공 목적의 연구 동향 개요이다. 특정 연구 결과, 통계, 주장은 학술 연구에서 인용하기 전에 원본 논문과 대조하여 검증해야 한다.
고차원 시계열에서 인과 그래프 학습: 베이지안 DAG 구조 탐색
복잡한 시스템—금융 시장, 신경 회로, 유전자 조절 네트워크, 기후 원격 연결—에서 인과 관계를 이해하려면 상관 분석 이상의 작업이 필요하다. 상관관계는 두 변수가 함께 움직인다는 사실을 알려주지만, 인과관계는 하나를 변경하면 다른 하나가 변한다는 것을 알려준다. 인과 관계를 위한 수학적 언어는 방향성 비순환 그래프(DAG)로, 노드는 변수를 나타내고 방향성 에지는 인과적 영향을 나타낸다.
관측 데이터에서 DAG를 학습하는 것은 상관관계를 학습하는 것보다 근본적으로 더 어렵다. p개 변수에 대해 가능한 DAG의 수는 초지수적으로 증가한다. p = 20개 변수의 경우 약 10³⁰개의 가능한 DAG 구조가 존재하며, 이 수는 초지수적으로 증가하여 더 큰 네트워크에서는 실로 천문학적인 규모에 도달한다. 각 시점의 각 변수가 하나의 노드가 되는 시계열 데이터의 경우, 차원은 더욱 폭발적으로 증가한다.
Roy 등은 고차원 다변량 시계열에서 정상 DAG 구조를 학습하기 위한 베이지안 프레임워크를 개발하였다. 이는 계량경제학(수백 개의 금융 상품), 신경과학(수백 개의 뇌 영역), 기후 과학(수백 개의 공간 격자점)에서 공통적으로 나타나는 설정이다.
정상성 가정
핵심 모델링 가정은 정상성이다. 즉, 인과 구조는 시간이 지나도 변하지 않는다. 오늘의 주가가 내일의 주가에 영향을 미치는 방식을 지배하는 DAG는 지난달의 역학을 지배했던 DAG와 동일하다. 이 가정은 강력하지만, 강력한 추론을 가능하게 한다. 전체 시계열이 단일한 시불변 인과 구조에 대한 근거를 제공하기 때문이다.
정상성 하에서 DAG는 동시적 인과관계(시점 t에서의 변수 A가 시점 t에서의 변수 B를 유발)와 시차 인과관계(시점 t에서의 변수 A가 시점 t+1, t+2 등에서의 변수 B를 유발) 모두를 인코딩한다. 시차 구조는 시스템의 시간적 역학, 즉 인과적 효과가 얼마나 빠르게 전파되는지를 포착한다.
Roy 등의 베이지안 접근법은 DAG 구조에 사전 분포를 부여하고, MCMC 샘플링을 사용하여 사후 분포—관측 데이터와 일치하는 DAG 구조들의 집합을 확률로 가중한 것—를 탐색한다. 이 사후 분포는 단일 "최적" DAG를 반환하는 점 추정 방법에 비해 여러 가지 장점을 제공한다.
- 불확실성 정량화: 각 잠재적 인과 에지에 대해 사후 분포는 해당 에지가 존재할 확률을 제공하여, 연구자들이 확신할 수 있는 인과 주장과 불확실한 주장을 구분할 수 있게 한다
- 모델 평균화: 예측은 하나의 불확실한 구조에 조건화되는 것이 아니라 여러 타당한 DAG 구조에 걸쳐 평균화될 수 있다
- 에지 발견: 대부분의 사후 샘플에 나타나는 에지는 강건한 인과 관계이며, 드물게 나타나는 에지는 불확실하므로 별도의 한정 없이 보고해서는 안 된다
분류를 위한 구조 최적화
Li 등은 고차원 분류에 초점을 맞추어 시계열 설정을 보완한다. 여기서 DAG 구조는 인과 메커니즘을 발견하기 위한 것이 아니라 예측 성능을 향상시키기 위해 사용된다. 이들의 접근법은 DAG의 해석 가능성을 유지하면서 분류 정확도를 극대화하도록 베이지안 네트워크 구조를 최적화한다.
이 최적화는 진화 알고리즘을 사용하여 DAG 구조 공간을 탐색한다. 이는 완전한 베이지안 추론보다는 원리적 엄밀성이 낮지만, 매우 고차원적인 설정에서 계산적으로 더 다루기 쉬운 휴리스틱 접근법이다. 트레이드오프는 명확하다. 더 엄밀한 불확실성 정량화를 희생하는 대신 더 빠른 구조 학습을 얻는다.
주장과 근거
<
| 주장 | 근거 | 판정 |
|---|
| 베이즈 DAG 학습은 인과 구조에 대한 불확실성을 제공한다 | Roy et al.은 DAG에 대한 사후 샘플링을 시연한다 | ✅ 지지됨 |
| 정상성은 시계열로부터 효율적인 추론을 가능하게 한다 | 하나의 구조 하에서 일관된 데이터는 비정상 데이터보다 더 많은 정보를 제공한다 | ✅ 지지됨 (정상성이 성립할 때) |
| 완전 베이즈 DAG 추론은 고차원으로 확장 가능하다 | 계산 비용으로 인해 현재 방법은 중간 차원(~50-100개 변수)에 한정된다 | ⚠️ 중간 수준의 확장성 |
| DAG 구조는 고차원에서 분류를 개선한다 | Li et al.은 벤치마크 데이터셋에서의 개선을 시연한다 | ✅ 지지됨 |
미해결 질문
비정상 DAG: 인과 구조가 시간에 따라 변한다면 어떻게 되는가(체제 전환, 구조적 단절)? 베이즈 DAG 학습을 비정상 환경으로 확장하려면 구조 학습과 통합된 변화점 탐지가 필요하며, 이는 실질적으로 더 어려운 문제이다.잠재적 교란 변수: DAG 학습은 모든 관련 변수가 관측된다고 가정한다. 중요한 교란 변수가 측정되지 않는다면, 학습된 DAG는 허위 엣지를 포함할 수 있다. DAG 구조 학습에서 잠재적 교란 변수를 어떻게 탐지하고 처리할 것인가?확장성: 완전 베이즈 DAG 추론은 차원에 따라 초지수적으로 증가하는 공간에 대한 MCMC를 필요로 한다. 현재 방법은 수십 개 또는 아마도 수백 개 이하의 변수로 확장 가능하다. 유전체학과 기후 과학에서 흔히 사용되는 수천 개의 변수로는 어떻게 확장할 것인가?개입 대 관측: 관측 데이터로부터 학습된 DAG는 가정(충실성, 인과 충족성) 하에서만 인과 방향을 식별한다. 실험적 개입은 더 강력한 식별을 제공한다. DAG 학습을 위해 관측 데이터와 실험 데이터를 최적으로 어떻게 결합할 것인가?연구에 대한 시사점
통계학자와 계량경제학자에게 베이즈 DAG 학습은 불확실성을 정직하게 정량화하는 인과 발견을 위한 원칙적 프레임워크를 제공한다. 이는 관측 데이터로부터의 인과적 주장에 있어 필수적인 요건이다.
뇌 연결성을 연구하는 신경과학자에게 fMRI 또는 EEG 시계열에 적용된 DAG 모델은 기능적 연결성(상관)과 효과적 연결성(인과)을 구분할 수 있다. 이 구분은 관측된 뇌 네트워크가 인과적 정보 흐름을 반영하는지 아니면 단순히 공유된 입력을 반영하는지를 결정한다.
기후 과학자에게 DAG 모델은 원격상관(teleconnection)을 형식화할 수 있다. 즉, 엘니뇨가 인도 몬순에 영향을 미치거나 북극 해빙이 중위도 날씨에 영향을 미치는 인과적 경로를 형식화할 수 있다. 이러한 인과적 경로의 불확실성을 정량화하는 것은 기후 예측과 귀인에 필수적이다.
References (2)
[1] Roy, A., Roy, A., Ghosal, S. (2025). Bayesian Inference for High-dimensional Time Series with a Stationary Directed Acyclic Graphical Structure. Semantic Scholar.
[2] Li, K., Wang, A., Wang, L. (2025). Structural Optimization of Causal Driven Model Based on Bayesian Network in High-dimensional Data Classification. Applied Mathematics and Nonlinear Sciences.