This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The single-cell genomics field has generated extraordinary volumes of data over the past decade, but this abundance has created its own problem: datasets are scattered across hundreds of studies, annotated with inconsistent vocabularies, processed with different pipelines, and formatted in incompatible ways. For training large AI models on cellular biology, this fragmentation is not merely inconvenientโit is a fundamental obstacle. The human Ensemble Cell Atlas (hECA) v2.0 (Xi et al., 2025), published in Scientific Data, attempts to address this by assembling, standardizing, and uniformly annotating the largest AI-ready single-cell resource to date.
The Data Integration Challenge
Single-cell RNA sequencing (scRNA-seq) measures gene expression in individual cells, producing count matrices that vary in depth, quality, gene nomenclature, and cell type labeling depending on the generating laboratory. When different groups label cells as "T cells," "CD4+ T cells," "T helper cells," or "Th1 lymphocytes," computational integration struggles with what is fundamentally a semantic problem.
Previous atlas effortsโthe Human Cell Atlas (HCA), CellxGene, and the first hECA versionโmade substantial progress in aggregating data but varied in the degree of annotation harmonization. Pan et al. (2024) in Genome Biology constructed a single-cell multi-omics encyclopedia spanning five omics modalities, demonstrating the value of cross-modal integration. However, the specific requirements of AI model pre-trainingโconsistent tokenization of cell types, standardized feature spaces, quality-controlled expression matricesโdemand additional curation beyond what general-purpose atlases provide.
What hECA v2.0 Contains
hECA v2.0 aggregates 10,831,024 human cells from scRNA-seq data and adds a new modality: 1,450,511 cells from single-cell ATAC sequencing (scATAC-seq), which profiles chromatin accessibility rather than gene expression. Together, these two modalities cover 42 human organs and tissues.
The data underwent several standardization steps:
- Gene expression matrices were reprocessed to use a unified gene symbol set, eliminating discrepancies from different genome builds and annotation versions.
- Chromatin accessibility profiles were aligned to a common peak set, enabling cross-dataset comparison of regulatory regions.
- Cell type annotations were manually re-annotated using the Unified Hierarchical Annotation Framework (uHAF), which imposes a controlled vocabulary organized in a hierarchy from broad categories (e.g., "immune cell") to specific types (e.g., "CD8+ effector memory T cell, TEMRA").
The manual re-annotation aspect is particularly noteworthy. Automated annotation tools (CellTypist, scType) can propagate errors from reference datasets; the hECA team performed expert review to correct misannotations and enforce consistency across studies.
The AI-Ready Design Philosophy
The explicit targeting of AI model pre-training distinguishes hECA v2.0 from prior atlas efforts. The authors note that their dataset served as the pre-training corpus for scMulan, a large generative cellular AI model. This creates a direct feedback loop: the atlas is designed to support the model, and the model's performance validates the atlas's quality.
For AI applications, several design choices matter:
Consistent tokenization. Large language models for biology (scGPT, Geneformer, scBERT) typically tokenize gene expression by discretizing continuous values into bins or ranks. A unified feature space across the atlas ensures that these tokens have consistent meaning regardless of the source dataset.
Balanced tissue representation. Training data imbalanceโwhere blood and brain tissues are overrepresented while rarer tissues like adrenal glands are scarceโcan bias model behavior. hECA v2.0 documents the tissue distribution, enabling informed sampling strategies during training.
Dual-modics pairing. Having both transcriptomic and epigenomic (chromatin accessibility) data from human tissues enables models that learn relationships between gene regulation and expressionโa richer biological representation than expression alone.
Critical Assessment
Coverage remains uneven. While 42 organs are represented, the depth of coverage varies substantially. Some tissues may have hundreds of thousands of cells while others have tens of thousands. This imbalance reflects the field's historical research priorities rather than biological importance.
Annotation quality depends on human expertise. The manual re-annotation is a strength for accuracy but a limitation for scalability. As new datasets are generated at accelerating rates, maintaining annotation quality through expert review becomes progressively more challenging. Automated methods with human-in-the-loop verification may be necessary for future versions.
Batch effects persist. Despite standardization, technical variation between datasets generated by different laboratories, using different protocols, and on different platforms cannot be fully eliminated. The atlas documents known batch structures, but downstream users must still apply batch correction methods.
The atlas is a snapshot. The Human Cell Atlas and similar projects continue to generate data. hECA v2.0 captures a specific moment in time; its utility depends on how frequently it is updated and whether the annotation framework remains consistent across versions.
Comparison with alternatives is needed. CellxGene Census from the Chan Zuckerberg Initiative also provides large-scale standardized single-cell data. A systematic comparison of coverage, annotation quality, and utility for AI model training between these resources would be valuable for the community.
Implications for Cellular AI Models
The emergence of AI-ready atlases signals a maturation of the single-cell field from data generation to data engineering. Just as ImageNet's curation enabled the deep learning explosion in computer vision, standardized cell atlases may play an analogous role for biological foundation models.
However, the analogy has limits. Images have a natural structure (pixel grids) that maps cleanly to neural network architectures. Single-cell data is sparse, noisy, and high-dimensional in ways that challenge standard architectures. The success of atlas-pretrained models will depend not only on data quality but on architectural innovations tailored to biological data characteristics.
Open Questions
- How should AI model pre-training handle the inherent imbalance in tissue representation within atlas datasets?
- Can automated annotation methods achieve sufficient quality to scale atlas construction beyond what expert manual review permits?
- What is the optimal combination of omics modalities for pre-training biological foundation modelsโis dual-omics sufficient, or do protein, spatial, and perturbation data add critical information?
- How should versioning and updating of AI-ready atlases be managed to ensure reproducibility of models trained on earlier versions?
Closing Reflection
hECA v2.0 represents a thoughtful effort to transform the single-cell data deluge into a structured resource suitable for training AI models. Its value lies not merely in scaleโ10.8 million cells is large but not substantialโbut in the careful standardization and annotation that make those cells computationally comparable. As biological AI models grow in ambition, the quality of their training data will increasingly determine their ceiling. Atlas-engineering efforts like hECA v2.0 are laying that foundation.
๋จ์ผ ์ธํฌ ์ ์ ์ฒดํ ๋ถ์ผ๋ ์ง๋ 10๋
๊ฐ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฐํด์์ผ๋, ์ด๋ฌํ ๋ฐ์ดํฐ์ ํ๋ถํจ์ ๊ทธ ์์ฒด๋ก ์๋ก์ด ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ๋ฐ์ดํฐ์
์ ์๋ฐฑ ๊ฐ์ ์ฐ๊ตฌ์ ๋ถ์ฐ๋์ด ์๊ณ , ์ผ๊ด์ฑ ์๋ ์ดํ๋ก ์ฃผ์์ด ๋ฌ๋ ค ์์ผ๋ฉฐ, ์๋ก ๋ค๋ฅธ ํ์ดํ๋ผ์ธ์ผ๋ก ์ฒ๋ฆฌ๋๊ณ , ํธํ๋์ง ์๋ ๋ฐฉ์์ผ๋ก ํฌ๋งท๋์ด ์๋ค. ์ธํฌ ์๋ฌผํ์ ๊ดํ ๋๊ท๋ชจ AI ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐ ์์ด ์ด๋ฌํ ๋จํธํ๋ ๋จ์ํ ๋ถํธํจ์ ๊ทธ์น์ง ์๊ณ , ๊ทผ๋ณธ์ ์ธ ์ฅ์ ๋ฌผ์ด ๋๋ค. Scientific Data์ ๋ฐํ๋ ์ธ๊ฐ ์์๋ธ ์ธํฌ ์ํ๋ผ์ค(hECA) v2.0(Xi et al., 2025)์ ํ์ฌ๊น์ง ๊ฐ์ฅ ๊ท๋ชจ๊ฐ ํฐ AI ์ค๋น ์๋ฃ ๋จ์ผ ์ธํฌ ์์์ ์์ง, ํ์คํ, ๊ท ์ผํ๊ฒ ์ฃผ์ ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค.
๋ฐ์ดํฐ ํตํฉ์ ๊ณผ์
๋จ์ผ ์ธํฌ RNA ์ํ์ฑ(scRNA-seq)์ ๊ฐ๋ณ ์ธํฌ์ ์ ์ ์ ๋ฐํ์ ์ธก์ ํ์ฌ ์นด์ดํธ ํ๋ ฌ์ ์์ฑํ๋๋ฐ, ์ด ํ๋ ฌ์ ์์ฑ ์ฐ๊ตฌ์ค์ ๋ฐ๋ผ ๊น์ด, ํ์ง, ์ ์ ์ ๋ช
๋ช
๋ฒ, ์ธํฌ ์ ํ ํ์ง๊ฐ ๊ฐ๊ธฐ ๋ค๋ฅด๋ค. ์๋ก ๋ค๋ฅธ ์ฐ๊ตฌ ๊ทธ๋ฃน๋ค์ด ๋์ผํ ์ธํฌ๋ฅผ "T ์ธํฌ," "CD4+ T ์ธํฌ," "T ๋ณด์กฐ ์ธํฌ," ๋๋ "Th1 ๋ฆผํ๊ตฌ"๋ก ํ์งํ ๋, ๊ณ์ฐ์ ํตํฉ์ ๊ทผ๋ณธ์ ์ผ๋ก ์๋ฏธ๋ก ์ ๋ฌธ์ ์ ์ง๋ฉดํ๊ฒ ๋๋ค.
์ด์ ์ ์ํ๋ผ์ค ๊ตฌ์ถ ์๋๋คโHuman Cell Atlas(HCA), CellxGene, ๊ทธ๋ฆฌ๊ณ ์ฒซ ๋ฒ์งธ hECA ๋ฒ์ โ์ ๋ฐ์ดํฐ ์ง๊ณ ์ธก๋ฉด์์ ์๋นํ ์ง์ ์ ์ด๋ฃจ์์ผ๋, ์ฃผ์ ์กฐํ์ ์์ค์ ์ ๊ฐ๊ฐ์ด์๋ค. Genome Biology์ ๋ฐํ๋ Pan et al.(2024)์ 5๊ฐ์ง ์ค๋ฏน์ค ์์์ ์์ฐ๋ฅด๋ ๋จ์ผ ์ธํฌ ๋ค์ค ์ค๋ฏน์ค ๋ฐฑ๊ณผ์ฌ์ ์ ๊ตฌ์ถํ์ฌ ๊ต์ฐจ ์์ ํตํฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ์๋ค. ๊ทธ๋ฌ๋ AI ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ํน์ํ ์๊ตฌ ์ฌํญโ์ธํฌ ์ ํ์ ์ผ๊ด๋ ํ ํฐํ, ํ์คํ๋ ํน์ง ๊ณต๊ฐ, ํ์ง ๊ด๋ฆฌ๋ ๋ฐํ ํ๋ ฌโ์ ๋ฒ์ฉ ์ํ๋ผ์ค๊ฐ ์ ๊ณตํ๋ ๊ฒ ์ด์์ ์ถ๊ฐ์ ์ธ ํ๋ ์ด์
์ ํ์๋ก ํ๋ค.
hECA v2.0์ ๊ตฌ์ฑ ๋ด์ฉ
hECA v2.0์ scRNA-seq ๋ฐ์ดํฐ๋ก๋ถํฐ 10,831,024๊ฐ์ ์ธ๊ฐ ์ธํฌ๋ฅผ ์ง๊ณํ๊ณ , ์ ์ ์ ๋ฐํ ๋์ ์ผ์์ง ์ ๊ทผ์ฑ์ ํ๋กํ์ผ๋งํ๋ ๋จ์ผ ์ธํฌ ATAC ์ํ์ฑ(scATAC-seq)์ผ๋ก๋ถํฐ 1,450,511๊ฐ์ ์ธํฌ๋ฅผ ํฌํจํ๋ ์๋ก์ด ์์์ ์ถ๊ฐํ์๋ค. ์ด ๋ ๊ฐ์ง ์์์ 42๊ฐ์ ์ธ๊ฐ ์ฅ๊ธฐ ๋ฐ ์กฐ์ง์ ๋ค๋ฃฌ๋ค.
๋ฐ์ดํฐ๋ ๋ค์๊ณผ ๊ฐ์ ํ์คํ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณค๋ค:
- ์ ์ ์ ๋ฐํ ํ๋ ฌ์ ํต์ผ๋ ์ ์ ์ ๊ธฐํธ ์ธํธ๋ฅผ ์ฌ์ฉํ๋๋ก ์ฌ์ฒ๋ฆฌ๋์ด, ์๋ก ๋ค๋ฅธ ๊ฒ๋ ๋น๋ ๋ฐ ์ฃผ์ ๋ฒ์ ์ผ๋ก ์ธํ ๋ถ์ผ์น๋ฅผ ์ ๊ฑฐํ์๋ค.
- ์ผ์์ง ์ ๊ทผ์ฑ ํ๋กํ์ผ์ ๊ณตํต ํผํฌ ์ธํธ์ ์ ๋ ฌ๋์ด, ๋ฐ์ดํฐ์
๊ฐ ์กฐ์ ์์ญ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋๋ก ํ์๋ค.
- ์ธํฌ ์ ํ ์ฃผ์์ ํตํฉ ๊ณ์ธต์ ์ฃผ์ ํ๋ ์์ํฌ(uHAF)๋ฅผ ์ฌ์ฉํ์ฌ ์๋์ผ๋ก ์ฌ์ฃผ์ ์ฒ๋ฆฌ๋์์ผ๋ฉฐ, ์ด๋ ๊ด๋ฒ์ํ ๋ฒ์ฃผ(์: "๋ฉด์ญ ์ธํฌ")์์ ๊ตฌ์ฒด์ ์ธ ์ ํ(์: "CD8+ ํจ๊ณผ๊ธฐ ๊ธฐ์ต T ์ธํฌ, TEMRA")์ ์ด๋ฅด๋ ๊ณ์ธต ๊ตฌ์กฐ๋ก ์กฐ์ง๋ ํต์ ์ดํ๋ฅผ ์ ์ฉํ๋ค.
์๋ ์ฌ์ฃผ์ ์ฒ๋ฆฌ ์ธก๋ฉด์ ํนํ ์ฃผ๋ชฉํ ๋งํ๋ค. ์๋ ์ฃผ์ ๋๊ตฌ(CellTypist, scType)๋ ์ฐธ์กฐ ๋ฐ์ดํฐ์
์ ์ค๋ฅ๋ฅผ ์ ํํ ์ ์์ผ๋ฏ๋ก, hECA ํ์ ์ ๋ฌธ๊ฐ ๊ฒํ ๋ฅผ ์ํํ์ฌ ์๋ชป๋ ์ฃผ์์ ์์ ํ๊ณ ์ฐ๊ตฌ๋ค ๊ฐ์ ์ผ๊ด์ฑ์ ํ๋ณดํ์๋ค.
AI ์ค๋น ์๋ฃ ์ค๊ณ ์ฒ ํ
AI ๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ๋ช
์์ ์ผ๋ก ๊ฒจ๋ฅํ๋ค๋ ์ ์ด hECA v2.0์ ์ด์ ์ ์ํ๋ผ์ค ์๋๋ค๊ณผ ์ฐจ๋ณํํ๋ค. ์ ์๋ค์ ์์ ๋ค์ ๋ฐ์ดํฐ์
์ด ๋๊ท๋ชจ ์์ฑ์ ์ธํฌ AI ๋ชจ๋ธ์ธ scMulan์ ์ฌ์ ํ๋ จ ์ฝํผ์ค๋ก ํ์ฉ๋์์์ ๋ฐํ๊ณ ์๋ค. ์ด๋ ์ง์ ์ ์ธ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํ์ฑํ๋ค. ์ฆ, ์ํ๋ผ์ค๋ ๋ชจ๋ธ์ ์ง์ํ๋๋ก ์ค๊ณ๋๊ณ , ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํ๋ผ์ค์ ํ์ง์ ๊ฒ์ฆํ๋ค.
AI ์์ฉ ๋ถ์ผ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ช ๊ฐ์ง ์ค๊ณ ์ ํ์ด ์ค์ํ๋ค:
์ผ๊ด๋ ํ ํฐํ. ์๋ฌผํ์ ์ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(scGPT, Geneformer, scBERT)์ ์ผ๋ฐ์ ์ผ๋ก ์ฐ์์ ์ธ ๊ฐ์ ๊ตฌ๊ฐ ๋๋ ์์๋ก ์ด์ฐํํ์ฌ ์ ์ ์ ๋ฐํ์ ํ ํฐํํ๋ค. ์ํ๋ผ์ค ์ ๋ฐ์ ๊ฑธ์น ํต์ผ๋ ํน์ง ๊ณต๊ฐ์ ์์ค ๋ฐ์ดํฐ์
์ ๊ด๊ณ์์ด ์ด๋ฌํ ํ ํฐ๋ค์ด ์ผ๊ด๋ ์๋ฏธ๋ฅผ ๊ฐ๋๋ก ๋ณด์ฅํ๋ค.
๊ท ํ ์กํ ์กฐ์ง ํํ. ํ์ก ๋ฐ ๋ ์กฐ์ง์ ๊ณผ๋ ๋ํ๋๋ ๋ฐ๋ฉด ๋ถ์ ๊ณผ ๊ฐ์ ํฌ๊ท ์กฐ์ง์ ๋ถ์กฑํ, ํ๋ จ ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ ๋ชจ๋ธ ๋์์ ํธํฅ์ ์ด๋ํ ์ ์๋ค. hECA v2.0์ ์กฐ์ง ๋ถํฌ๋ฅผ ๋ฌธ์ํํจ์ผ๋ก์จ ํ๋ จ ๊ณผ์ ์์ ์ ๋ณด์ ์
๊ฐํ ์ํ๋ง ์ ๋ต์ ์๋ฆฝํ ์ ์๊ฒ ํ๋ค.
์ด์ค ๋ชจ๋ฌ๋ฆฌํฐ ์. ์ธ๊ฐ ์กฐ์ง์ผ๋ก๋ถํฐ ์ ์ฌ์ฒด(transcriptomic) ๋ฐ ํ์ฑ์ ์ ์ฒด(epigenomic, ์ผ์์ง ์ ๊ทผ์ฑ) ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ๋ณด์ ํ๋ฉด, ์ ์ ์ ์กฐ์ ๊ณผ ๋ฐํ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ ๊ตฌ์ถ์ด ๊ฐ๋ฅํด์ง๋ค. ์ด๋ ๋ฐํ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ํ๋ถํ ์๋ฌผํ์ ํํ์ ์ ๊ณตํ๋ค.
๋นํ์ ํ๊ฐ
์ปค๋ฒ๋ฆฌ์ง๋ ์ฌ์ ํ ๋ถ๊ท ๋ฑํ๋ค. 42๊ฐ์ ์ฅ๊ธฐ๊ฐ ํฌํจ๋์ด ์์ง๋ง, ์ปค๋ฒ๋ฆฌ์ง์ ๊น์ด๋ ์๋นํ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค. ์ผ๋ถ ์กฐ์ง์ ์์ญ๋ง ๊ฐ์ ์ธํฌ๋ฅผ ๊ฐ์ง๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ์กฐ์ง์ ์๋ง ๊ฐ์ ๊ทธ์น ์ ์๋ค. ์ด๋ฌํ ๋ถ๊ท ํ์ ์๋ฌผํ์ ์ค์์ฑ๋ณด๋ค๋ ํด๋น ๋ถ์ผ์ ์ญ์ฌ์ ์ฐ๊ตฌ ์ฐ์ ์์๋ฅผ ๋ฐ์ํ ๊ฒฐ๊ณผ์ด๋ค.
์ฃผ์ ํ์ง์ ์ธ๊ฐ ์ ๋ฌธ์ฑ์ ์์กดํ๋ค. ์๋ ์ฌ์ฃผ์(re-annotation)์ ์ ํ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ด์ง๋ง ํ์ฅ์ฑ ์ธก๋ฉด์์๋ ํ๊ณ์ด๋ค. ์๋ก์ด ๋ฐ์ดํฐ์
์ด ๊ฐ์ํ๋ ์๋๋ก ์์ฑ๋จ์ ๋ฐ๋ผ, ์ ๋ฌธ๊ฐ ๊ฒํ ๋ฅผ ํตํ ์ฃผ์ ํ์ง ์ ์ง๋ ์ ์ ๋ ์ด๋ ค์์ง๋ค. ํฅํ ๋ฒ์ ์์๋ ์ธ๊ฐ์ด ๋ฃจํ์ ์ฐธ์ฌํ๋(human-in-the-loop) ๊ฒ์ฆ ๋ฐฉ์์ ๊ฐ์ถ ์๋ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ ์ ์๋ค.
๋ฐฐ์น ํจ๊ณผ๋ ์ง์๋๋ค. ํ์คํ์๋ ๋ถ๊ตฌํ๊ณ , ์๋ก ๋ค๋ฅธ ์คํ์ค์์ ์๋ก ๋ค๋ฅธ ํ๋กํ ์ฝ๊ณผ ํ๋ซํผ์ ์ฌ์ฉํ์ฌ ์์ฑ๋ ๋ฐ์ดํฐ์
๊ฐ์ ๊ธฐ์ ์ ๋ณ์ด๋ฅผ ์์ ํ ์ ๊ฑฐํ ์๋ ์๋ค. ์ํ๋ผ์ค๋ ์๋ ค์ง ๋ฐฐ์น ๊ตฌ์กฐ๋ฅผ ๋ฌธ์ํํ๊ณ ์์ง๋ง, ํ๋ฅ(downstream) ์ฌ์ฉ์๋ ์ฌ์ ํ ๋ฐฐ์น ๋ณด์ (batch correction) ๋ฐฉ๋ฒ์ ์ ์ฉํด์ผ ํ๋ค.
์ํ๋ผ์ค๋ ํน์ ์์ ์ ์ค๋
์ท์ด๋ค. Human Cell Atlas ๋ฐ ์ ์ฌ ํ๋ก์ ํธ๋ ์ง์์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ์๋ค. hECA v2.0์ ํน์ ์์ ์ ํฌ์ฐฉํ ๊ฒ์ผ๋ก, ๊ทธ ์ ์ฉ์ฑ์ ์ผ๋ง๋ ์์ฃผ ์
๋ฐ์ดํธ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ์ฃผ์ ํ๋ ์์ํฌ๊ฐ ๋ฒ์ ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋์ง์ ๋ฌ๋ ค ์๋ค.
๋์๊ณผ์ ๋น๊ต๊ฐ ํ์ํ๋ค. Chan Zuckerberg Initiative์ CellxGene Census ์ญ์ ๋๊ท๋ชจ ํ์คํ๋ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ฌํ ์์๋ค ๊ฐ์ ์ปค๋ฒ๋ฆฌ์ง, ์ฃผ์ ํ์ง, ๊ทธ๋ฆฌ๊ณ AI ๋ชจ๋ธ ํ๋ จ์ ์ํ ์ ์ฉ์ฑ์ ๋ํ ์ฒด๊ณ์ ์ธ ๋น๊ต๋ ์ปค๋ฎค๋ํฐ์ ํฐ ๊ฐ์น๋ฅผ ์ง๋ ๊ฒ์ด๋ค.
์ธํฌ AI ๋ชจ๋ธ์ ๋ํ ํจ์
AI ์นํ์ ์ํ๋ผ์ค์ ๋ฑ์ฅ์ ๋จ์ผ์ธํฌ ๋ถ์ผ๊ฐ ๋ฐ์ดํฐ ์์ฑ์์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ผ๋ก ์ฑ์ํด๊ฐ๊ณ ์์์ ์์ฌํ๋ค. ImageNet์ ํ๋ ์ด์
์ด ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๋ฅ๋ฌ๋์ ํญ๋ฐ์ ๋ฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ์ฒ๋ผ, ํ์คํ๋ ์ธํฌ ์ํ๋ผ์ค๋ ์๋ฌผํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ(foundation model)์์ ์ ์ฌํ ์ญํ ์ ํ ์ ์๋ค.
๊ทธ๋ฌ๋ ์ด ์ ์ถ์๋ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฏธ์ง๋ ์ ๊ฒฝ๋ง ์ํคํ
์ฒ์ ๊น๋ํ๊ฒ ๋งคํ๋๋ ์์ฐ์ค๋ฌ์ด ๊ตฌ์กฐ(ํฝ์
๊ฒฉ์)๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ๋ ํฌ์ํ๊ณ ์ก์์ด ๋ง์ผ๋ฉฐ ๊ณ ์ฐจ์์ ์ด์ด์ ํ์ค ์ํคํ
์ฒ์ ๋์ ์ ์ด๋ค. ์ํ๋ผ์ค๋ก ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ฑ๊ณต์ ๋ฐ์ดํฐ ํ์ง๋ฟ๋ง ์๋๋ผ ์๋ฌผํ์ ๋ฐ์ดํฐ ํน์ฑ์ ๋ง์ถฐ์ง ์ํคํ
์ฒ ํ์ ์๋ ๋ฌ๋ ค ์๋ค.
์ด๋ฆฐ ์ง๋ฌธ๋ค
- AI ๋ชจ๋ธ ์ฌ์ ํ๋ จ์์ ์ํ๋ผ์ค ๋ฐ์ดํฐ์
๋ด ์กฐ์ง ํํ์ ๋ด์ฌ์ ๋ถ๊ท ํ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ?
- ์๋ํ๋ ์ฃผ์ ๋ฐฉ๋ฒ์ด ์ ๋ฌธ๊ฐ ์๋ ๊ฒํ ๋ก ๊ฐ๋ฅํ ์์ค์ ๋์ด์ ์ํ๋ผ์ค ๊ตฌ์ถ์ ํ์ฅํ๊ธฐ์ ์ถฉ๋ถํ ํ์ง์ ๋ฌ์ฑํ ์ ์๋๊ฐ?
- ์๋ฌผํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ฌ์ ํ๋ จ์ ์ํ ์ต์ ์ ์ค๋ฏน์ค(omics) ๋ชจ๋ฌ๋ฆฌํฐ ์กฐํฉ์ ๋ฌด์์ธ๊ฐโ์ด์ค ์ค๋ฏน์ค(dual-omics)๋ก ์ถฉ๋ถํ๊ฐ, ์๋๋ฉด ๋จ๋ฐฑ์ง, ๊ณต๊ฐ(spatial), ๊ทธ๋ฆฌ๊ณ ์ญ๋(perturbation) ๋ฐ์ดํฐ๊ฐ ํต์ฌ์ ์ธ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋๊ฐ?
- ์ด์ ๋ฒ์ ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ์ฌํ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด AI ์นํ์ ์ํ๋ผ์ค์ ๋ฒ์ ๊ด๋ฆฌ ๋ฐ ์
๋ฐ์ดํธ๋ฅผ ์ด๋ป๊ฒ ๊ด๋ฆฌํด์ผ ํ๋๊ฐ?
๋ง๋ฌด๋ฆฌ ์ฑ์ฐฐ
hECA v2.0์ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ์ ํ์๋ฅผ AI ๋ชจ๋ธ ํ๋ จ์ ์ ํฉํ ๊ตฌ์กฐํ๋ ์์์ผ๋ก ๋ณํํ๊ธฐ ์ํ ์ฌ๋ ค ๊น์ ๋
ธ๋ ฅ์ ๋ํํ๋ค. ๊ทธ ๊ฐ์น๋ ๋จ์ํ ๊ท๋ชจโ1,080๋ง ๊ฐ์ ์ธํฌ๋ ํฌ์ง๋ง ์๋์ ์ด์ง๋ ์๋คโ์ ์๋ ๊ฒ์ด ์๋๋ผ, ํด๋น ์ธํฌ๋ค์ ๊ณ์ฐ์ ์ผ๋ก ๋น๊ต ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ์ ์คํ ํ์คํ์ ์ฃผ์์ ์๋ค. ์๋ฌผํ์ AI ๋ชจ๋ธ์ ์ผ๋ง์ด ์ปค์ง์ ๋ฐ๋ผ, ํ๋ จ ๋ฐ์ดํฐ์ ํ์ง์ด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ ์ ๋ ๊ฒฐ์ ํ๊ฒ ๋ ๊ฒ์ด๋ค. hECA v2.0๊ณผ ๊ฐ์ ์ํ๋ผ์ค ์์ง๋์ด๋ง ๋
ธ๋ ฅ์ ๋ฐ๋ก ๊ทธ ํ ๋๋ฅผ ๋ฆ๊ณ ์๋ค.
References (3)
Xi, X., et al. (2025). hECA v2.0: an AI-ready ensemble cell atlas of single-cell RNA and ATAC sequencing data. Scientific Data.
Pan, L., et al. (2024). Single Cell Atlas: a single-cell multi-omics human cell encyclopedia. Genome Biology.
Xi, X., Chen, Y., Wu, X., Hao, M., Li, J., Bian, H., et al. (2025). hECA v2.0: an AI-ready ensemble cell atlas of single-cell RNA and ATAC sequencing data. Scientific Data, 13(1).