Trend AnalysisMathematics & StatisticsMachine/Deep Learning
Beyond Persistent Homology: Topological Data Analysis Enters the Deep Learning Era
Persistent homology has been TDA's workhorse for a decadeโextracting topological features (loops, voids, connected components) from data. But 2025's research frontier moves beyond: topological deep learning, Euler characteristic methods, and Reeb graphs are enabling shape-aware AI for molecules, cells, and complex networks.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Topological data analysis starts from a compelling premise: the shape of data carries information that standard statistical methods miss. Two datasets may have identical means, variances, and correlations but fundamentally different topological structureโone might form a single connected cluster while the other forms two separate loops with a void between them. TDA provides mathematical tools to detect, quantify, and compare these structural features.
Persistent homologyโthe technique that tracks topological features (connected components, loops, voids) as they appear and disappear across scalesโhas been TDA's primary tool for over a decade. It produces "persistence diagrams" that summarize a dataset's multi-scale topological structure in a compact, interpretable representation.
But persistent homology has limitations. It captures only certain topological invariants (Betti numbers); it struggles with noisy data in high dimensions; and its outputโpersistence diagramsโdoes not naturally integrate with deep learning architectures that expect vector inputs. The 2025 research frontier, comprehensively reviewed by Su et al., extends TDA beyond these limitations through topological deep learning (TDL)โarchitectures that natively process topological structures.
From Persistence Diagrams to Topological Neural Networks
Su et al.'s review identifies three waves of TDA development:
Wave 1: Classical TDA (2000s-2010s). Persistent homology is applied to static datasets, producing persistence diagrams that are analyzed using statistical methods. Applications include shape recognition, sensor network coverage, and protein structure analysis.
Wave 2: Vectorization (2010s-2020s). Persistence diagrams are converted to vector representations (persistence landscapes, persistence images, Betti curves) that can be used as features in standard ML models. This bridges TDA and ML but treats topology as a preprocessing step, not an integrated component of learning.
Wave 3: Topological Deep Learning (2020s-present). Neural network architectures are designed to operate directly on topological structuresโsimplicial complexes, cell complexes, hypergraphs. These architectures learn representations that are inherently topological, rather than converting topology to vectors as an afterthought.
The key architectures in wave 3 include:
- Simplicial neural networks: Message passing on simplicial complexes (triangles, tetrahedra, higher simplices) rather than just edges
- Cell complex neural networks: Generalizing simplicial networks to arbitrary cell structures
- Sheaf neural networks: Neural networks that process data defined over topological sheavesโa highly general framework that subsumes graph neural networks as a special case
Molecular TDA: Chemistry Through a Topological Lens
Wee & Jiang (published in the Journal of Chemical Information and Modeling) provide the most comprehensive review of TDA applications in molecular science. Molecules have rich topological structure: covalent bonds form graphs, protein surfaces form 2-manifolds, binding pockets form cavities (voids in the topological sense), and molecular interactions form higher-order complexes.
The review identifies several areas where TDA provides advantages over traditional molecular descriptors:
- Protein-ligand binding: Persistent homology captures the shape of the binding pocket more faithfully than geometric descriptors (volume, surface area), because topological features are invariant to continuous deformations
- Molecular generation: Topological constraints (ring count, connectivity) provide useful inductive biases for generative models that produce valid molecular structures
- Drug toxicity prediction: Topological features of molecular interaction networks correlate with toxicity in ways that individual molecular properties do not capture
Single-Cell Biology: Topology of Cell Populations
Hernรกndez-Lemus applies TDA to single-cell biologyโa domain where the "shape" of data has direct biological meaning. Single-cell RNA sequencing measures gene expression in individual cells, producing datasets with thousands of dimensions (one per gene) and thousands to millions of data points (one per cell).
The topological structure of these datasets reflects biological processes:
- Branches in the data manifold correspond to cell differentiation trajectories
- Loops correspond to cell cycle dynamics
- Disconnected components correspond to distinct cell types
Persistent homology detects these features without requiring prior knowledge of the cell types or differentiation programsโa data-driven approach to biological discovery that complements the hypothesis-driven tradition of molecular biology.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| TDA captures structural information that standard statistics miss | Well-established in the mathematical community with numerous examples | โ
Well-established |
| Topological deep learning outperforms vectorized TDA approaches | Su et al. review evidence of improvement on specific benchmarks | โ
Supported (task-dependent) |
| TDA provides useful features for molecular property prediction | Wee & Jiang review extensive evidence across molecular tasks | โ
Supported |
| TDA reveals biological structure in single-cell data | Hernรกndez-Lemus demonstrates topological recovery of known differentiation trajectories | โ
Supported |
| TDA is computationally scalable to large datasets | Computational cost of persistent homology limits scalability; approximations help | โ ๏ธ Improving but still a constraint |
Open Questions
Computational scalability: Persistent homology has worst-case cubic complexity in the number of simplices. For large datasets (millions of points in high dimensions), this is prohibitive. Can approximate TDA methods maintain topological fidelity while scaling to massive data?Statistical inference on topological features: When persistent homology detects a feature (a loop, a void), is it statistically significant or an artifact of sampling noise? The emerging field of statistical TDA provides hypothesis tests and confidence sets for topological features, but the methods are not yet widely adopted.Integration with foundation models: Can topological features be integrated into LLM-based scientific reasoning? For instance, could an LLM that understands molecular topology reason about drug-target interactions using topological representations?Higher-order interactions: Standard graph neural networks model pairwise interactions. Topological deep learning models higher-order interactions (simplicial, cellular). For which applications do higher-order interactions provide meaningful improvement?Interpretability: Topological features (persistent homology classes, Betti numbers) have clear mathematical definitions but may lack intuitive biological or physical interpretation. How do we bridge the mathematical rigor of TDA with domain-specific interpretability?What This Means for Your Research
For data scientists, TDA provides a complementary lens to standard methodsโone that captures structural properties (connectivity, loops, voids) that correlations and distributions miss. The investment in learning TDA is repaid in domains where data has genuine topological structure: molecular science, biology, neuroscience, and complex networks.
For mathematicians, the TDA-to-TDL pipeline provides a compelling application trajectory for algebraic topologyโfrom abstract mathematical tools to deployed machine learning architectures. The theoretical questions raised by topological deep learning (expressivity of simplicial networks, stability of topological features under noise) are genuine mathematical research problems.
For domain scientists in chemistry and biology, the message is that TDA is no longer a curiosityโit is an established tool with demonstrated value for molecular property prediction, single-cell analysis, and biological network modeling. The 2025 tools are more accessible than ever, with software packages (Ripser, GUDHI, giotto-tda) that make persistent homology computation routine.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ๋ฐ๊ฒฌ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
์ง์์ ํธ๋ชฐ๋ก์ง๋ฅผ ๋์ด์: ์์์ ๋ฐ์ดํฐ ๋ถ์, ๋ฅ๋ฌ๋ ์๋๋ก ์ง์
ํ๋ค
์์์ ๋ฐ์ดํฐ ๋ถ์(Topological Data Analysis, TDA)์ ์ค๋๋ ฅ ์๋ ์ ์ ์์ ์ถ๋ฐํ๋ค: ๋ฐ์ดํฐ์ ํํ(shape)๋ ํ์ค ํต๊ณ์ ๋ฐฉ๋ฒ์ด ๋์น๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค๋ ๊ฒ์ด๋ค. ๋ ๋ฐ์ดํฐ์
์ด ๋์ผํ ํ๊ท , ๋ถ์ฐ, ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋๋ผ๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ ์๋คโํ๋๋ ๋จ์ผํ ์ฐ๊ฒฐ๋ ํด๋ฌ์คํฐ๋ฅผ ํ์ฑํ๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ํ๋๋ ๊ทธ ์ฌ์ด์ ๊ณต๋(void)์ ๊ฐ์ง ๋ ๊ฐ์ ๋ถ๋ฆฌ๋ ๋ฃจํ๋ฅผ ํ์ฑํ ์ ์๋ค. TDA๋ ์ด๋ฌํ ๊ตฌ์กฐ์ ํน์ง์ ๊ฐ์งํ๊ณ , ์ ๋ํํ๋ฉฐ, ๋น๊ตํ๋ ์ํ์ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋ค.
์ง์์ ํธ๋ชฐ๋ก์ง(Persistent homology)โ์ฌ๋ฌ ์ฒ๋์ ๊ฑธ์ณ ์์์ ํน์ง(์ฐ๊ฒฐ ์ฑ๋ถ, ๋ฃจํ, ๊ณต๋)์ด ๋ํ๋๊ณ ์ฌ๋ผ์ง๋ ๊ณผ์ ์ ์ถ์ ํ๋ ๊ธฐ๋ฒโ์ 10๋
์ด์ TDA์ ํต์ฌ ๋๊ตฌ์๋ค. ์ด ๊ธฐ๋ฒ์ ๋ฐ์ดํฐ์
์ ๋ค์ค ์ฒ๋ ์์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒฐํ๊ณ ํด์ ๊ฐ๋ฅํ ํํ์ผ๋ก ์์ฝํ๋ "์ง์์ฑ ๋ค์ด์ด๊ทธ๋จ(persistence diagrams)"์ ์์ฑํ๋ค.
๊ทธ๋ฌ๋ ์ง์์ ํธ๋ชฐ๋ก์ง์๋ ํ๊ณ๊ฐ ์๋ค. ํน์ ์์์ ๋ถ๋ณ๋(Betti ์)๋ง์ ํฌ์ฐฉํ๋ฉฐ, ๊ณ ์ฐจ์์ ๋
ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ์์ ์ด๋ ค์์ ๊ฒช๋๋ค. ๋ํ ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ธ ์ง์์ฑ ๋ค์ด์ด๊ทธ๋จ์ ๋ฒกํฐ ์
๋ ฅ์ ๊ธฐ๋ํ๋ ๋ฅ๋ฌ๋ ์ํคํ
์ฒ์ ์์ฐ์ค๋ฝ๊ฒ ํตํฉ๋์ง ์๋๋ค. Su et al.์ด ํฌ๊ด์ ์ผ๋ก ๊ฒํ ํ 2025๋
์ฐ๊ตฌ์ ์ต์ ์ ์ ์์์ ๋ฅ๋ฌ๋(Topological Deep Learning, TDL)โ์์์ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์ํคํ
์ฒโ์ ํตํด TDA๋ฅผ ์ด๋ฌํ ํ๊ณ ๋๋จธ๋ก ํ์ฅํ๋ค.
์ง์์ฑ ๋ค์ด์ด๊ทธ๋จ์์ ์์์ ์ ๊ฒฝ๋ง์ผ๋ก
Su et al.์ ๋ฆฌ๋ทฐ๋ TDA ๋ฐ์ ์ ์ธ ๊ฐ์ง ํ๋ฆ์ ๊ท๋ช
ํ๋ค:
1๋จ๊ณ: ๊ณ ์ ์ TDA (2000๋
๋~2010๋
๋). ์ ์ ๋ฐ์ดํฐ์
์ ์ง์์ ํธ๋ชฐ๋ก์ง๋ฅผ ์ ์ฉํ์ฌ ์ง์์ฑ ๋ค์ด์ด๊ทธ๋จ์ ์์ฑํ๊ณ , ์ด๋ฅผ ํต๊ณ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ถ์ํ๋ค. ์ ์ฉ ๋ถ์ผ๋ก๋ ํํ ์ธ์, ์ผ์ ๋คํธ์ํฌ ์ปค๋ฒ๋ฆฌ์ง, ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๋ถ์ ๋ฑ์ด ์๋ค.
2๋จ๊ณ: ๋ฒกํฐํ (2010๋
๋~2020๋
๋). ์ง์์ฑ ๋ค์ด์ด๊ทธ๋จ์ ํ์ค ML ๋ชจ๋ธ์์ ํน์ง(feature)์ผ๋ก ํ์ฉํ ์ ์๋ ๋ฒกํฐ ํํ(์ง์์ฑ ๋๋์ค์ผ์ดํ, ์ง์์ฑ ์ด๋ฏธ์ง, Betti ๊ณก์ )์ผ๋ก ๋ณํํ๋ค. ์ด๋ TDA์ ML์ ์ฐ๊ฒฐํ์ง๋ง, ์์์ ํ์ต์ ํตํฉ๋ ๊ตฌ์ฑ ์์๊ฐ ์๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ก ๋ค๋ฃฌ๋ค.
3๋จ๊ณ: ์์์ ๋ฅ๋ฌ๋ (2020๋
๋~ํ์ฌ). ์ ๊ฒฝ๋ง ์ํคํ
์ฒ๊ฐ ๋จ์ฒด ๋ณตํฉ์ฒด(simplicial complexes), ์
๋ณตํฉ์ฒด(cell complexes), ํ์ดํผ๊ทธ๋ํ(hypergraphs)์ ๊ฐ์ ์์์ ๊ตฌ์กฐ๋ฅผ ์ง์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋๋ค. ์ด๋ฌํ ์ํคํ
์ฒ๋ ์์์ ์ฌํ์ ์ผ๋ก ๋ฒกํฐ๋ก ๋ณํํ๋ ๋ฐฉ์์ด ์๋๋ผ, ๋ณธ์ง์ ์ผ๋ก ์์์ ์ธ ํํ์ ํ์ตํ๋ค.
3๋จ๊ณ์ ํต์ฌ ์ํคํ
์ฒ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ๋จ์ฒด ์ ๊ฒฝ๋ง(Simplicial neural networks): ๋จ์ํ ์ฃ์ง(edge)๊ฐ ์๋ ๋จ์ฒด ๋ณตํฉ์ฒด(์ผ๊ฐํ, ์ฌ๋ฉด์ฒด, ๊ณ ์ฐจ ๋จ์ฒด) ์์์์ ๋ฉ์์ง ํจ์ฑ(message passing)
- ์
๋ณตํฉ์ฒด ์ ๊ฒฝ๋ง(Cell complex neural networks): ๋จ์ฒด ๋คํธ์ํฌ๋ฅผ ์์์ ์
๊ตฌ์กฐ๋ก ์ผ๋ฐํ
- ์ฌํ ์ ๊ฒฝ๋ง(Sheaf neural networks): ์์์ ์ฌํ(topological sheaves) ์์ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ์ ๊ฒฝ๋งโ๊ทธ๋ํ ์ ๊ฒฝ๋ง(graph neural networks)์ ํน์ ์ฌ๋ก๋ก ํฌํจํ๋ ๋งค์ฐ ๋ฒ์ฉ์ ์ธ ํ๋ ์์ํฌ
๋ถ์ TDA: ์์์ ๋ ์ฆ๋ฅผ ํตํ ํํ
Wee & Jiang(Journal of Chemical Information and Modeling ๊ฒ์ฌ)์ ๋ถ์ ๊ณผํ์์์ TDA ์์ฉ์ ๊ดํ ๊ฐ์ฅ ํฌ๊ด์ ์ธ ๋ฆฌ๋ทฐ๋ฅผ ์ ๊ณตํ๋ค. ๋ถ์๋ ํ๋ถํ ์์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค: ๊ณต์ ๊ฒฐํฉ์ ๊ทธ๋ํ๋ฅผ ํ์ฑํ๊ณ , ๋จ๋ฐฑ์ง ํ๋ฉด์ 2-๋ค์์ฒด(2-manifold)๋ฅผ ํ์ฑํ๋ฉฐ, ๊ฒฐํฉ ํฌ์ผ(binding pockets)์ ๊ณต๋(์์์ ์๋ฏธ์์์ void)์ ํ์ฑํ๊ณ , ๋ถ์ ์ํธ์์ฉ์ ๊ณ ์ฐจ ๋ณตํฉ์ฒด๋ฅผ ํ์ฑํ๋ค.
์ด ๋ฆฌ๋ทฐ๋ TDA๊ฐ ์ ํต์ ์ธ ๋ถ์ ๊ธฐ์ ์(descriptor)์ ๋นํด ์ด์ ์ ์ ๊ณตํ๋ ๋ช ๊ฐ์ง ์์ญ์ ๊ท๋ช
ํ๋ค:
- ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ๊ฒฐํฉ(Protein-ligand binding): ์ง์์ ํธ๋ชฐ๋ก์ง๋ ๊ฒฐํฉ ํฌ์ผ์ ํํ๋ฅผ ๊ธฐํํ์ ๊ธฐ์ ์(๋ถํผ, ํ๋ฉด์ )๋ณด๋ค ๋ ์ถฉ์คํ๊ฒ ํฌ์ฐฉํ๋ค. ์ด๋ ์์์ ํน์ง์ด ์ฐ์์ ๋ณํ์ ๋ํด ๋ถ๋ณ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
- ๋ถ์ ์์ฑ: ์์์ ์ ์ฝ ์กฐ๊ฑด(๊ณ ๋ฆฌ ์, ์ฐ๊ฒฐ์ฑ)์ ์ ํจํ ๋ถ์ ๊ตฌ์กฐ๋ฅผ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ์ ์ ์ฉํ ๊ท๋ฉ์ ํธํฅ์ ์ ๊ณตํ๋ค
- ์ฝ๋ฌผ ๋
์ฑ ์์ธก: ๋ถ์ ์ํธ์์ฉ ๋คํธ์ํฌ์ ์์์ ํน์ง์ ๊ฐ๋ณ ๋ถ์ ํน์ฑ์ผ๋ก๋ ํฌ์ฐฉ๋์ง ์๋ ๋ฐฉ์์ผ๋ก ๋
์ฑ๊ณผ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค
๋จ์ผ์ธํฌ ์๋ฌผํ: ์ธํฌ ์ง๋จ์ ์์
Hernรกndez-Lemus๋ TDA๋ฅผ ๋จ์ผ์ธํฌ ์๋ฌผํ์ ์ ์ฉํ๋ค. ์ด ๋ถ์ผ์์๋ ๋ฐ์ดํฐ์ "ํํ"๊ฐ ์ง์ ์ ์ธ ์๋ฌผํ์ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. ๋จ์ผ์ธํฌ RNA ์ํ์ฑ์ ๊ฐ๋ณ ์ธํฌ์์ ์ ์ ์ ๋ฐํ์ ์ธก์ ํ๋ฉฐ, ์์ฒ ๊ฐ์ ์ฐจ์(์ ์ ์๋น ํ๋)๊ณผ ์์ฒ์์ ์๋ฐฑ๋ง ๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ(์ธํฌ๋น ํ๋)๋ฅผ ๊ฐ๋ ๋ฐ์ดํฐ์
์ ์์ฑํ๋ค.
์ด๋ฌํ ๋ฐ์ดํฐ์
์ ์์์ ๊ตฌ์กฐ๋ ์๋ฌผํ์ ๊ณผ์ ์ ๋ฐ์ํ๋ค:
- ๋ฐ์ดํฐ ๋ค์์ฒด์ ๋ถ๊ธฐ๋ ์ธํฌ ๋ถํ ๊ถค์ ์ ๋์๋๋ค
- ๋ฃจํ๋ ์ธํฌ ์ฃผ๊ธฐ ์ญํ์ ๋์๋๋ค
- ๋ถ๋ฆฌ๋ ์ฑ๋ถ์ ๋ณ๊ฐ์ ์ธํฌ ์ ํ์ ๋์๋๋ค
์ง์์ ํธ๋ชฐ๋ก์ง๋ ์ธํฌ ์ ํ์ด๋ ๋ถํ ํ๋ก๊ทธ๋จ์ ๋ํ ์ฌ์ ์ง์ ์์ด๋ ์ด๋ฌํ ํน์ง์ ํ์งํ๋ค. ์ด๋ ๋ถ์์๋ฌผํ์ ๊ฐ์ค ์ฃผ๋์ ์ ํต์ ๋ณด์ํ๋, ์๋ฌผํ์ ๋ฐ๊ฒฌ์ ์ํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| TDA๋ ํ์ค ํต๊ณ๊ฐ ๋์น๋ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๋ค | ์ํ ์ปค๋ฎค๋ํฐ์์ ์๋ง์ ์ฌ๋ก์ ํจ๊ป ์ ํ๋ฆฝ๋์ด ์๋ค | โ
์ ํ๋ฆฝ๋จ |
| ์์์ ๋ฅ๋ฌ๋์ ๋ฒกํฐํ๋ TDA ์ ๊ทผ๋ฒ์ ๋ฅ๊ฐํ๋ค | Su et al.์ด ํน์ ๋ฒค์น๋งํฌ์์์ ๊ฐ์ ๊ทผ๊ฑฐ๋ฅผ ๊ฒํ ํ๋ค | โ
์ง์ง๋จ (ํ์คํฌ ์์กด์ ) |
| TDA๋ ๋ถ์ ํน์ฑ ์์ธก์ ์ ์ฉํ ํน์ง์ ์ ๊ณตํ๋ค | Wee & Jiang์ด ๋ถ์ ํ์คํฌ ์ ๋ฐ์ ๊ฑธ์น ๊ด๋ฒ์ํ ๊ทผ๊ฑฐ๋ฅผ ๊ฒํ ํ๋ค | โ
์ง์ง๋จ |
| TDA๋ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ์์ ์๋ฌผํ์ ๊ตฌ์กฐ๋ฅผ ๋๋ฌ๋ธ๋ค | Hernรกndez-Lemus๊ฐ ์๋ ค์ง ๋ถํ ๊ถค์ ์ ์์์ ๋ณต์์ ์
์ฆํ๋ค | โ
์ง์ง๋จ |
| TDA๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ผ๋ก ๊ณ์ฐ์ ์ผ๋ก ํ์ฅ ๊ฐ๋ฅํ๋ค | ์ง์์ ํธ๋ชฐ๋ก์ง์ ๊ณ์ฐ ๋น์ฉ์ด ํ์ฅ์ฑ์ ์ ํํ๋ฉฐ, ๊ทผ์ฌ๋ฒ์ด ๋์์ด ๋๋ค | โ ๏ธ ๊ฐ์ ์ค์ด๋ ์ฌ์ ํ ์ ์ฝ ์กฐ๊ฑด์ |
๋ฏธํด๊ฒฐ ๋ฌธ์
๊ณ์ฐ์ ํ์ฅ์ฑ: ์ง์์ ํธ๋ชฐ๋ก์ง๋ ๋จ์ฒด ์์ ๋ํด ์ต์
์ ๊ฒฝ์ฐ 3์ฐจ ๋ณต์ก๋๋ฅผ ๊ฐ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(๊ณ ์ฐจ์ ๊ณต๊ฐ์ ์๋ฐฑ๋ง ๊ฐ ํฌ์ธํธ)์์ ์ด๋ ํ์ค์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค. ๊ทผ์ฌ TDA ๋ฐฉ๋ฒ์ ์์์ ์ถฉ์ค๋๋ฅผ ์ ์งํ๋ฉด์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํ์ฅ๋ ์ ์๋๊ฐ?์์์ ํน์ง์ ๋ํ ํต๊ณ์ ์ถ๋ก : ์ง์์ ํธ๋ชฐ๋ก์ง๊ฐ ์ด๋ค ํน์ง(๋ฃจํ, ๊ณต๋)์ ํ์งํ์ ๋, ๊ทธ๊ฒ์ด ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฒ์ธ๊ฐ ์๋๋ฉด ์ํ๋ง ์ก์์ ์ธ์์ ์ฐ๋ฌผ์ธ๊ฐ? ํต๊ณ์ TDA๋ผ๋ ์ ํฅ ๋ถ์ผ๋ ์์์ ํน์ง์ ๋ํ ๊ฐ์ค ๊ฒ์ ๊ณผ ์ ๋ขฐ ์งํฉ์ ์ ๊ณตํ์ง๋ง, ์ด ๋ฐฉ๋ฒ๋ค์ ์์ง ๋๋ฆฌ ์ฑํ๋์ง ์์๋ค.๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ์ ํตํฉ: ์์์ ํน์ง์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ถ๋ก ์ ํตํฉํ ์ ์๋๊ฐ? ์๋ฅผ ๋ค์ด, ๋ถ์ ์์์ ์ดํดํ๋ LLM์ด ์์์ ํํ์ ํ์ฉํ์ฌ ์ฝ๋ฌผ-ํ์ ์ํธ์์ฉ์ ๋ํด ์ถ๋ก ํ ์ ์๋๊ฐ?๊ณ ์ฐจ ์ํธ์์ฉ: ํ์ค ๊ทธ๋ํ ์ ๊ฒฝ๋ง์ ์๋ณ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํ๋ค. ์์์ ๋ฅ๋ฌ๋์ ๊ณ ์ฐจ ์ํธ์์ฉ(๋จ์ฒด์ , ์ธํฌ์ )์ ๋ชจ๋ธ๋งํ๋ค. ์ด๋ค ์์ฉ ๋ถ์ผ์์ ๊ณ ์ฐจ ์ํธ์์ฉ์ด ์๋ฏธ ์๋ ๊ฐ์ ์ ์ ๊ณตํ๋๊ฐ?ํด์ ๊ฐ๋ฅ์ฑ: ์์์ ํน์ง(์ง์์ ํธ๋ชฐ๋ก์ง ํด๋์ค, Betti ์)์ ๋ช
ํํ ์ํ์ ์ ์๋ฅผ ๊ฐ์ง๋ง, ์ง๊ด์ ์ธ ์๋ฌผํ์ ๋๋ ๋ฌผ๋ฆฌ์ ํด์์ด ๋ถ์กฑํ ์ ์๋ค. TDA์ ์ํ์ ์๋ฐ์ฑ๊ณผ ๋ถ์ผ๋ณ ํด์ ๊ฐ๋ฅ์ฑ ์ฌ์ด์ ๊ฐ๊ทน์ ์ด๋ป๊ฒ ์ขํ ๊ฒ์ธ๊ฐ?์ฐ๊ตฌ์์ ์์ฌ์
๋ฐ์ดํฐ ๊ณผํ์์๊ฒ TDA๋ ํ์ค ๋ฐฉ๋ฒ์ ๋ณด์ํ๋ ๊ด์ ์ ์ ๊ณตํ๋ค. ์ด๋ ์๊ด๊ด๊ณ์ ๋ถํฌ๋ก๋ ๋์น ์ ์๋ ๊ตฌ์กฐ์ ํน์ฑ(์ฐ๊ฒฐ์ฑ, ๋ฃจํ, ๊ณต๋)์ ํฌ์ฐฉํ๋ค. TDA ํ์ต์ ํฌ์ํ ๋น์ฉ์ ๋ฐ์ดํฐ๊ฐ ์ง์ ํ ์์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ ๋ถ์ผ, ์ฆ ๋ถ์๊ณผํ, ์๋ฌผํ, ์ ๊ฒฝ๊ณผํ, ๋ณต์ก๊ณ ๋คํธ์ํฌ์์ ์ถฉ๋ถํ ํ์๋๋ค.
์ํ์๋ค์๊ฒ ์์ด, TDA์์ TDL๋ก ์ด์ด์ง๋ ํ์ดํ๋ผ์ธ์ ๋์์ ์์์ํ์ ๋งค๋ ฅ์ ์ธ ์์ฉ ๊ถค์ ์ ์ ์ํ๋คโ์ถ์์ ์ธ ์ํ์ ๋๊ตฌ๋ก๋ถํฐ ์ค์ ๋ก ๋ฐฐํฌ๋ ๋จธ์ ๋ฌ๋ ์ํคํ
์ฒ์ ์ด๋ฅด๊ธฐ๊น์ง. ์์์ ๋ฅ๋ฌ๋(topological deep learning)์ด ์ ๊ธฐํ๋ ์ด๋ก ์ ๋ฌธ์ ๋ค(๋จ์ ๋คํธ์ํฌ์ ํํ๋ ฅ, ๋
ธ์ด์ฆ ํ์์ ์์์ ํน์ง์ ์์ ์ฑ)์ ์ง์ ํ ์ํ ์ฐ๊ตฌ ๋ฌธ์ ๋ค์ด๋ค.
ํํ ๋ฐ ์๋ฌผํ ๋ถ์ผ์ ๋๋ฉ์ธ ๊ณผํ์๋ค์๊ฒ ์ ํ๋ ๋ฉ์์ง๋, TDA๊ฐ ๋ ์ด์ ๋จ์ํ ํธ๊ธฐ์ฌ์ ๋์์ด ์๋๋ผ๋ ๊ฒ์ด๋คโTDA๋ ๋ถ์ ํน์ฑ ์์ธก, ๋จ์ผ์ธํฌ ๋ถ์, ์๋ฌผํ์ ๋คํธ์ํฌ ๋ชจ๋ธ๋ง์์ ๊ทธ ๊ฐ์น๊ฐ ์
์ฆ๋ ํ๋ฆฝ๋ ๋๊ตฌ์ด๋ค. 2025๋
์ ๋๊ตฌ๋ค์ ๊ทธ ์ด๋ ๋๋ณด๋ค ์ ๊ทผ์ฑ์ด ๋์ผ๋ฉฐ, ์ํํธ์จ์ด ํจํค์ง(Ripser, GUDHI, giotto-tda)๋ฅผ ํตํด ์ง์์ ํธ๋ชฐ๋ก์ง(persistent homology) ๊ณ์ฐ์ด ์ผ์์ ์ธ ์์
์ด ๋์๋ค.
References (3)
[1] Su, Z., Liu, X., Bou Hamdan, L. et al. (2025). Topological data analysis and topological deep learning beyond persistent homology: a review. Artificial Intelligence Review.
[2] Wee, J. & Jiang, J. (2025). A Review of Topological Data Analysis and Topological Deep Learning in Molecular Sciences. J. Chem. Inf. Model..
[3] Hernรกndez-Lemus, E. (2025). Topological data analysis in single cell biology. Frontiers in Immunology.