This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The volume of medical imaging studies performed globallyโestimated at 3.6 billion annuallyโfar exceeds the capacity of radiologists to interpret them in a timely manner. Abdominal CT scans alone account for hundreds of millions of studies per year, each producing hundreds of slices that must be examined for abnormalities in the liver, kidneys, pancreas, bowel, vasculature, and musculoskeletal system. The promise of medical vision-language models (VLMs) is to bridge this gap: systems that can view a CT scan and generate a clinically useful report, flagging abnormalities, quantifying findings, and suggesting differential diagnoses in natural language.
The promise is closer to reality than many clinicians realizeโbut further from clinical deployment than many AI researchers admit.
Merlin: The CT Foundation Model
Blankemeier et al. (2024) present Merlin, a vision-language foundation model specifically designed for abdominal CT interpretation, published in Nature with . The model is trained on a dataset of over 15,000 CT volumes paired with the corresponding radiology reportsโone of the larger medical VLM training sets reported to date.
Merlin's architecture adapts the CLIP (Contrastive Language-Image Pre-training) paradigm for volumetric medical data. Unlike natural images, CT scans are three-dimensional volumes (typically 200โ500 axial slices), requiring 3D convolutional encoders that can capture spatial relationships across slicesโa tubular structure crossing multiple slices may be a blood vessel, a bile duct, or a tumor, and the distinction often depends on its 3D morphology.
The model demonstrates several clinically relevant capabilities:
- Multi-organ abnormality detection: Identifying pathology across liver, kidneys, spleen, pancreas, and adrenal glands simultaneouslyโa task that requires the model to attend to different anatomical regions with different diagnostic thresholds.
- Report generation: Producing free-text radiology reports that include pertinent positive and negative findings, measurements, and differential diagnoses.
- Zero-shot and few-shot generalization: Performing reasonably on CT findings it was not explicitly trained on, guided by text descriptions.
The key performance metric: Merlin demonstrates improved report generation over prior models (RadFM) on standard metrics (RadGraph-F1, BERT Score, ROUGE-2, BLEU), though the authors describe this as 'an early demonstration' and note the model tends to under-report positive findings.
The State of the Field: A Systematic Review
Ryu et al. (2025) provide a systematic review of vision-language foundation models for medical imaging in Biomedical Engineering Letters with . Their survey covers the full spectrum of medical VLM architectures, training strategies, and clinical applications, identifying several trends:
Trend 1: Domain-specific models outperform general-purpose ones. Medical VLMs trained on medical data consistently outperform general-purpose VLMs (GPT-4V, Gemini) adapted for medical tasks. The gap is substantial for specialized imaging modalities (pathology, ophthalmoscopy, dermatoscopy) and smaller but still present for more common modalities (chest X-ray, CT).
Trend 2: Data quality matters more than data quantity. Models trained on 10,000 high-quality image-report pairs often outperform those trained on 100,000 noisy pairs. The curation of training dataโensuring that reports accurately describe the images, that diagnostic labels are correct, and that demographic representation is adequateโis labor-intensive but critical.
Trend 3: Evaluation remains inconsistent. Different papers use different metrics (BLEU, ROUGE, CheXpert F1, clinical concordance), different test sets, and different evaluation protocols, making cross-study comparison difficult. Ryu et al. call for standardized benchmarks analogous to ImageNet but specific to medical imaging.
3D Medical VLMs: Beyond Single Slices
Wu et al. (2025) address a specific limitation of many medical VLMs: they process 2D slices rather than 3D volumes. Published their work introduces a foundation model that natively processes 3D medical imagesโCT, MRI, and PET scansโwithout the information loss inherent in 2D projection or slice-by-slice processing.
The 3D approach matters for pathologies that are defined by their spatial extent: a liver mass is characterized by its three-dimensional shape, enhancement pattern across contrast phases, and relationship to adjacent vascular structures. A 2D model seeing one slice may classify a round lesion as a cyst; a 3D model seeing the full volume may recognize it as a metastasis with irregular margins and arterial-phase enhancementโa critical diagnostic distinction.
Wu et al. (2025) review 23 studies on 3D VLFMs for medical imaging, synthesizing evidence that tasks requiring spatial volumetric contextโliver lesion characterization, lymph node assessment, pulmonary nodule evaluationโbenefit from 3D-aware architectures over 2D patch-based approaches.
The Explainability Imperative
Nie et al. (2025) tackle what may be the greatest barrier to clinical adoption: explainability. Their approach, which has accumulated , introduces concept-enhanced vision-language pre-trainingโa technique where the model learns to ground its predictions in human-interpretable medical concepts (anatomical structures, pathological patterns, clinical findings) rather than in opaque feature vectors.
The idea is that a clinician presented with "the model predicts hepatocellular carcinoma because it detects arterial-phase hyperenhancement, washout on portal venous phase, and a capsule appearance" will trust that prediction more than one presented with "the model predicts hepatocellular carcinoma (confidence: 92%)." The first explanation maps onto established diagnostic criteria (LI-RADS); the second is a black box.
Nie et al.'s concept-enhanced approach achieves diagnostic accuracy comparable to non-explainable models while producing concept-level explanations that radiologists rate as "clinically meaningful" in user studies. The trade-off: the concept vocabulary is fixed at training time, meaning the model cannot explain predictions involving findings outside its concept dictionary.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Medical VLMs achieve improved CT report generation over prior models | Merlin outperforms RadFM on RadGraph-F1, BERT Score, ROUGE-2, BLEU; authors note under-reporting of positive findings (Blankemeier et al.) | โ
Supported (early demonstration) |
| Domain-specific VLMs outperform general-purpose VLMs | Consistent finding across multiple studies (Ryu et al.) | โ
Supported |
| 3D-aware architectures benefit volumetric diagnostic tasks | Review of 23 studies synthesizes evidence for liver lesion, lymph node, and nodule evaluation (Wu et al., review) | โ
Supported (review-based) |
| Explainable VLMs maintain accuracy while providing interpretability | Concept-enhanced approach matches non-explainable baselines (Nie et al.) | โ
Supported (early results) |
| Medical VLMs are ready for autonomous clinical deployment | No prospective clinical trial; regulatory pathway undefined | โ Refuted |
The Demographic Bias Concern
A recurring issue across medical VLM research: training datasets are overwhelmingly drawn from North American and European academic medical centers, with demographic compositions that do not reflect global patient populations. Diseases that disproportionately affect underrepresented populationsโhepatocellular carcinoma in East Asia, tuberculosis in sub-Saharan Africa, rheumatic heart disease in South Asiaโmay receive systematically lower diagnostic accuracy.
Merlin's training data comes from a single US academic institution. Whether its performance generalizes to CT scans acquired on different scanner models, with different contrast protocols, in patients with different body habitus distributions, is an empirical question that has not been systematically evaluated.
Open Questions and Future Directions
What regulatory framework applies to AI-generated radiology reports? Current FDA guidance covers AI as a diagnostic aid but does not address AI-generated reports intended to replace (rather than supplement) radiologist interpretation.Can federated learning diversify training data? Training VLMs on data from institutions across continents without sharing patient data could address demographic bias. The effectiveness of federated learning for large VLMs is still being evaluated.How should VLMs handle uncertainty? A radiologist encountering an ambiguous finding writes "cannot exclude malignancy" and recommends follow-up. VLMs must learn to express diagnostic uncertainty in clinically appropriate ways rather than producing binary classifications.What is the medicolegal liability for AI-generated reports? If a VLM-generated report misses a cancer, who is liableโthe AI developer, the hospital, or the supervising radiologist?Can VLMs integrate longitudinal data? Comparing current and prior imaging studies is a routine part of radiology. VLMs that can process temporal sequences of images and detect interval changes would be substantially more clinically useful than single-study models.Implications for Radiology
Medical vision-language models are approaching the point where they can perform routine interpretation tasks at clinically useful accuracy levels. The technology is mature enough to warrant prospective clinical trialsโand several are now being planned or underway.
The transformation of radiology practice will not be sudden. It will be incremental: AI handling the high-volume, low-complexity studies (normal chest CTs, straightforward abdominal scans) while radiologists focus on complex cases, interventional procedures, and clinical consultation. The radiologists who engage with these tools earlyโlearning their strengths, understanding their failure modes, contributing to their training datasetsโwill be better positioned than those who view them as either a threat or a curiosity.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์๋ฃ ๋น์ -์ธ์ด ๋ชจ๋ธ: CT ์ค์บ์์ ์์ ๋ณด๊ณ ์๊น์ง
์ ์ธ๊ณ์ ์ผ๋ก ์ํ๋๋ ์๋ฃ ์์ ๊ฒ์ฌ์ ์์ ์ฐ๊ฐ ์ฝ 36์ต ๊ฑด์ผ๋ก ์ถ์ ๋๋ฉฐ, ์ด๋ ๋ฐฉ์ฌ์ ๊ณผ ์์ฌ๋ค์ด ์ ์์ ํ๋
ํ ์ ์๋ ์ญ๋์ ํจ์ฌ ์ด๊ณผํ๋ค. ๋ณต๋ถ CT ์ค์บ๋ง ํด๋ ์ฐ๊ฐ ์์ต ๊ฑด์ ๋ฌํ๋ฉฐ, ๊ฐ ๊ฒ์ฌ๋ ์๋ฐฑ ์ฅ์ ์ฌ๋ผ์ด์ค๋ก ๊ตฌ์ฑ๋์ด ๊ฐ, ์ ์ฅ, ์ท์ฅ, ์ฅ, ํ๊ด๊ณ, ๊ทผ๊ณจ๊ฒฉ๊ณ์ ์ด์ ์ฌ๋ถ๋ฅผ ๊ฒํ ํด์ผ ํ๋ค. ์๋ฃ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ์ ์ฌ๋ ฅ์ ๋ฐ๋ก ์ด ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๋ ๋ฐ ์๋ค. ์ฆ, CT ์ค์บ์ ๋ณด๊ณ ์์์ ์ผ๋ก ์ ์ฉํ ๋ณด๊ณ ์๋ฅผ ์์ฑํ๊ณ , ์ด์ ์๊ฒฌ์ ํ์ํ๊ณ , ์๊ฒฌ์ ์ ๋ํํ๋ฉฐ, ์์ฐ์ด๋ก ๊ฐ๋ณ ์ง๋จ์ ์ ์ํ ์ ์๋ ์์คํ
์ด๋ค.
์ด ์ ์ฌ๋ ฅ์ ๋ง์ ์์์๊ฐ ์ธ์ํ๋ ๊ฒ๋ณด๋ค ํ์ค์ ๋ ๊ฐ๊น์ด ๋ค๊ฐ์ ์์ง๋ง, ๋ง์ AI ์ฐ๊ตฌ์๋ค์ด ์ธ์ ํ๋ ๊ฒ๋ณด๋ค๋ ์์ ๋ฐฐํฌ์ ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ค.
Merlin: CT ๊ธฐ๋ฐ ๋ชจ๋ธ
Blankemeier ๋ฑ(2024)์ ๋ณต๋ถ CT ํ๋
์ ์ํด ํน๋ณํ ์ค๊ณ๋ ๋น์ -์ธ์ด ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ Merlin์ Nature์ ๋ฐํํ์๋ค. ์ด ๋ชจ๋ธ์ 15,000๊ฑด ์ด์์ CT ๋ณผ๋ฅจ๊ณผ ์ด์ ๋์ํ๋ ๋ฐฉ์ฌ์ ๊ณผ ๋ณด๊ณ ์๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ์ด๋ ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ์๋ฃ VLM ํ๋ จ ๋ฐ์ดํฐ์
์ค ๊ฐ์ฅ ๊ท๋ชจ๊ฐ ํฐ ์ถ์ ์ํ๋ค.
Merlin์ ์ํคํ
์ฒ๋ CLIP(Contrastive Language-Image Pre-training) ํจ๋ฌ๋ค์์ ์ฒด์ ์๋ฃ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ ์ฉํ ๊ฒ์ด๋ค. ์ผ๋ฐ ์ด๋ฏธ์ง์ ๋ฌ๋ฆฌ CT ์ค์บ์ 3์ฐจ์ ๋ณผ๋ฅจ(์ผ๋ฐ์ ์ผ๋ก 200~500์ฅ์ ์ถ์ ์ฌ๋ผ์ด์ค)์ด๋ฏ๋ก, ์ฌ๋ผ์ด์ค ๊ฐ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ ์ ์๋ 3D ํฉ์ฑ๊ณฑ ์ธ์ฝ๋๊ฐ ํ์ํ๋ค. ์ฌ๋ฌ ์ฌ๋ผ์ด์ค์ ๊ฑธ์ณ ๋ํ๋๋ ๊ด์ ๊ตฌ์กฐ๋ฌผ์ ํ๊ด์ผ ์๋ ์๊ณ , ๋ด๊ด์ผ ์๋ ์์ผ๋ฉฐ, ์ข
์์ผ ์๋ ์๋๋ฐ, ์ด๋ฅผ ๊ตฌ๋ณํ๋ ๊ฒ์ ์ข
์ข
3D ํํ์ ๋ฌ๋ ค ์๋ค.
์ด ๋ชจ๋ธ์ ์์์ ์ผ๋ก ๊ด๋ จ๋ ๋ช ๊ฐ์ง ๊ธฐ๋ฅ์ ์์ฐํ๋ค:
- ๋ค์ค ์ฅ๊ธฐ ์ด์ ์๊ฒฌ ํ์ง: ๊ฐ, ์ ์ฅ, ๋น์ฅ, ์ท์ฅ, ๋ถ์ ์ ๋ณ๋ฆฌ ์๊ฒฌ์ ๋์์ ์๋ณํ๋ ๊ฒ์ผ๋ก, ์๋ก ๋ค๋ฅธ ์ง๋จ ์ญ์น๋ฅผ ๊ฐ์ง ๋ค์ํ ํด๋ถํ์ ์์ญ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ฌ์ผ ํ๋ ์์
์ด๋ค.
- ๋ณด๊ณ ์ ์์ฑ: ์์ฑ ๋ฐ ์์ฑ ์๊ฒฌ, ์ธก์ ๊ฐ, ๊ฐ๋ณ ์ง๋จ์ ํฌํจํ๋ ์์ ํ์์ ๋ฐฉ์ฌ์ ๊ณผ ๋ณด๊ณ ์๋ฅผ ์์ฑํ๋ค.
- ์ ๋ก์ท ๋ฐ ํจ์ท ์ผ๋ฐํ: ํ
์คํธ ์ค๋ช
์ ํ์ฉํ์ฌ ๋ช
์์ ์ผ๋ก ํ๋ จ๋์ง ์์ CT ์๊ฒฌ์ ๋ํด ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ฐํํ๋ค.
ํต์ฌ ์ฑ๋ฅ ์งํ: Merlin์ ํ์ค ์งํ(RadGraph-F1, BERT Score, ROUGE-2, BLEU)์์ ๊ธฐ์กด ๋ชจ๋ธ(RadFM)๋ณด๋ค ํฅ์๋ ๋ณด๊ณ ์ ์์ฑ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ ์๋ค์ ์ด๋ฅผ '์ด๊ธฐ ์์ฐ'์ผ๋ก ์ค๋ช
ํ๋ฉฐ ํด๋น ๋ชจ๋ธ์ด ์์ฑ ์๊ฒฌ์ ๊ณผ์ ๋ณด๊ณ ํ๋ ๊ฒฝํฅ์ด ์๋ค๊ณ ๋ฐํ๊ณ ์๋ค.
๋ถ์ผ์ ํํฉ: ์ฒด๊ณ์ ๋ฌธํ ๊ณ ์ฐฐ
Ryu ๋ฑ(2025)์ Biomedical Engineering Letters์ ์๋ฃ ์์์ ์ํ ๋น์ -์ธ์ด ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ํ ์ฒด๊ณ์ ๋ฌธํ ๊ณ ์ฐฐ์ ๋ฐํํ์๋ค. ์ด ์๋ฒ ์ด๋ ์๋ฃ VLM ์ํคํ
์ฒ, ํ๋ จ ์ ๋ต, ์์ ์ ์ฉ์ ์ ๋ฐ์ ์ธ ์คํํธ๋ผ์ ๋ค๋ฃจ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋ช ๊ฐ์ง ๋ํฅ์ ์ ์ํ๋ค:
๋ํฅ 1: ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ด ๋ฒ์ฉ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ๋ค. ์๋ฃ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ์๋ฃ VLM์ ์๋ฃ ๊ณผ์ ์ ์ ์ฉ๋ ๋ฒ์ฉ VLM(GPT-4V, Gemini)๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์ด ๊ฒฉ์ฐจ๋ ํน์ ์์ ๋ชจ๋ฌ๋ฆฌํฐ(๋ณ๋ฆฌํ, ์์ ๊ฒ์ฌ, ํผ๋ถ๊ฒฝ ๊ฒ์ฌ)์์ ํฌ๊ฒ ๋ํ๋๋ฉฐ, ๋ณด๋ค ์ผ๋ฐ์ ์ธ ๋ชจ๋ฌ๋ฆฌํฐ(ํ๋ถ X์ , CT)์์๋ ์์ง๋ง ์ฌ์ ํ ์กด์ฌํ๋ค.
๋ํฅ 2: ๋ฐ์ดํฐ ํ์ง์ด ๋ฐ์ดํฐ ์๋ณด๋ค ์ค์ํ๋ค. 10,000์์ ๊ณ ํ์ง ์ด๋ฏธ์ง-๋ณด๊ณ ์ ์์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์ด 100,000์์ ๋
ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ , ์ฆ ๋ณด๊ณ ์๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ ํํ๊ฒ ์ค๋ช
ํ๋์ง, ์ง๋จ ๋ ์ด๋ธ์ด ์ ํํ์ง, ์ธ๊ตฌํต๊ณํ์ ๋ํ์ฑ์ด ์ถฉ๋ถํ์ง ํ์ธํ๋ ์์
์ ๋
ธ๋ ์ง์ฝ์ ์ด์ง๋ง ๋งค์ฐ ์ค์ํ๋ค.
ํธ๋ ๋ 3: ํ๊ฐ ๋ฐฉ์์ด ์ผ๊ด๋์ง ์๋๋ค. ๋
ผ๋ฌธ๋ง๋ค ์๋ก ๋ค๋ฅธ ์งํ(BLEU, ROUGE, CheXpert F1, ์์์ ์ผ์น๋)์ ์๋ก ๋ค๋ฅธ ํ
์คํธ ์ธํธ, ์๋ก ๋ค๋ฅธ ํ๊ฐ ํ๋กํ ์ฝ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ฐ๊ตฌ ๊ฐ ๋น๊ต๊ฐ ์ด๋ ต๋ค. Ryu et al.์ ImageNet์ ์คํ๋ ์๋ฃ ์์์ ํนํ๋ ํ์คํ๋ ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ จํ ๊ฒ์ ์ด๊ตฌํ๋ค.
3D ์๋ฃ VLM: ๋จ์ผ ์ฌ๋ผ์ด์ค๋ฅผ ๋์ด์
Wu et al. (2025)์ ๋ง์ ์๋ฃ VLM์ด ๊ฐ์ง ํน์ ํ๊ณ๋ฅผ ๋ค๋ฃฌ๋ค. ๋ฐ๋ก 3D ๋ณผ๋ฅจ์ด ์๋ 2D ์ฌ๋ผ์ด์ค๋ฅผ ์ฒ๋ฆฌํ๋ค๋ ์ ์ด๋ค. ์ด ์ฐ๊ตฌ์์ ์๊ฐ๋ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ CT, MRI, PET ์ค์บ ๋ฑ 3D ์๋ฃ ์์์ 2D ํฌ์์ด๋ ์ฌ๋ผ์ด์ค๋ณ ์ฒ๋ฆฌ์์ ํ์ฐ์ ์ผ๋ก ๋ฐ์ํ๋ ์ ๋ณด ์์ค ์์ด ๊ธฐ๋ณธ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค.
3D ๋ฐฉ์์ ๊ณต๊ฐ์ ๋ฒ์์ ์ํด ์ ์๋๋ ๋ณ๋ฆฌ์์ ์ค์ํ๋ค. ๊ฐ ์ข
๊ดด๋ 3์ฐจ์์ ํํ, ์กฐ์ ๋จ๊ณ์ ๊ฑธ์น ์กฐ์ ํจํด, ๊ทธ๋ฆฌ๊ณ ์ธ์ ํ ํ๊ด ๊ตฌ์กฐ์์ ๊ด๊ณ๋ก ํน์ฑ์ด ํ์
๋๋ค. ํ๋์ ์ฌ๋ผ์ด์ค๋ฅผ ๋ณด๋ 2D ๋ชจ๋ธ์ ์ํ ๋ณ๋ณ์ ๋ญ์ข
์ผ๋ก ๋ถ๋ฅํ ์ ์์ง๋ง, ์ ์ฒด ๋ณผ๋ฅจ์ ๋ณด๋ 3D ๋ชจ๋ธ์ ๋ถ๊ท์นํ ๊ฒฝ๊ณ์ ๋๋งฅ๊ธฐ ์กฐ์ ์ฆ๊ฐ์ ๊ฐ์ง ์ ์ด์ฑ ๋ณ๋ณ์ผ๋ก ์ธ์ํ ์ ์๋ค. ์ด๋ ์์์ ์ผ๋ก ์ค์ํ ์ง๋จ์ ์ฐจ์ด์ด๋ค.
Wu et al. (2025)์ ์๋ฃ ์์์ ์ํ 3D VLFM์ ๊ดํ 23ํธ์ ์ฐ๊ตฌ๋ฅผ ๊ฒํ ํ๋ฉฐ, ๊ณต๊ฐ์ ์ฒด์ ๋งฅ๋ฝ์ด ์๊ตฌ๋๋ ๊ณผ์ โ๊ฐ ๋ณ๋ณ ํน์ฑํ, ๋ฆผํ์ ํ๊ฐ, ํ๊ฒฐ์ ํ๊ฐโ์์ 3D ์ธ์ ์ํคํ
์ฒ๊ฐ 2D ํจ์น ๊ธฐ๋ฐ ๋ฐฉ์๋ณด๋ค ์ ๋ฆฌํ๋ค๋ ๊ทผ๊ฑฐ๋ฅผ ์ข
ํฉํ๋ค.
์ค๋ช
๊ฐ๋ฅ์ฑ์ ํ์์ฑ
Nie et al. (2025)์ ์์ ๋์
์ ๊ฐ์ฅ ํฐ ์ฅ๋ฒฝ์ผ๋ก ๊ผฝํ๋ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๋ค๋ฃฌ๋ค. ์ด๋ค์ ์ ๊ทผ๋ฒ์ ๊ฐ๋
๊ฐํ ์๊ฐ-์ธ์ด ์ฌ์ ํ๋ จ(concept-enhanced vision-language pre-training)์ ๋์
ํ๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ถํฌ๋ช
ํ ํน์ง ๋ฒกํฐ๊ฐ ์๋ ์ธ๊ฐ์ด ํด์ ๊ฐ๋ฅํ ์๋ฃ ๊ฐ๋
(ํด๋ถํ์ ๊ตฌ์กฐ, ๋ณ๋ฆฌํ์ ํจํด, ์์ ์๊ฒฌ)์ ์์ธก์ ๊ทผ๊ฑฐํ๋๋ก ํ์ต์ํค๋ ๊ธฐ๋ฒ์ด๋ค.
ํต์ฌ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ๋ค. ์์์์๊ฒ "๋ชจ๋ธ์ด ๋๋งฅ๊ธฐ ๊ณผ์กฐ์, ๋ฌธ๋งฅ๊ธฐ ์ธ์ฒ ํจ๊ณผ, ํผ๋ง ์๊ฒฌ์ ๊ฐ์งํ์ฌ ๊ฐ์ธํฌ์์ข
์ผ๋ก ์์ธกํ๋ค"๊ณ ์ ์ํ๋ฉด, "๋ชจ๋ธ์ด ๊ฐ์ธํฌ์์ข
์ผ๋ก ์์ธกํ๋ค(์ ๋ขฐ๋: 92%)"๊ณ ์ ์ํ๋ ๊ฒ๋ณด๋ค ๋ ์ ๋ขฐ๋ฅผ ์ป์ ์ ์๋ค. ์ ์์ ์ค๋ช
์ ํ๋ฆฝ๋ ์ง๋จ ๊ธฐ์ค(LI-RADS)์ ๋์๋์ง๋ง, ํ์๋ ๋ธ๋๋ฐ์ค์ ๋ถ๊ณผํ๋ค.
Nie et al.์ ๊ฐ๋
๊ฐํ ๋ฐฉ์์ ์ค๋ช
๋ถ๊ฐ๋ฅํ ๋ชจ๋ธ๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ง๋จ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๋์์, ์ฌ์ฉ์ ์ฐ๊ตฌ์์ ๋ฐฉ์ฌ์ ๊ณผ ์์ฌ๋ค์ด "์์์ ์ผ๋ก ์๋ฏธ ์๋ค"๊ณ ํ๊ฐํ ๊ฐ๋
์์ค์ ์ค๋ช
์ ์์ฑํ๋ค. ๋จ, ๊ฐ๋
์ดํ๋ ํ๋ จ ์์ ์ ๊ณ ์ ๋๋ฏ๋ก ๋ชจ๋ธ์ด ์์ ์ ๊ฐ๋
์ฌ์ ์ ์๋ ์๊ฒฌ๊ณผ ๊ด๋ จ๋ ์์ธก์ ์ค๋ช
ํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ์๋ฃ VLM์ด ๊ธฐ์กด ๋ชจ๋ธ ๋๋น CT ๋ณด๊ณ ์ ์์ฑ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค | Merlin์ด RadGraph-F1, BERT Score, ROUGE-2, BLEU์์ RadFM์ ๋ฅ๊ฐํ๋ฉฐ, ์ ์๋ค์ ์์ฑ ์๊ฒฌ์ ๊ณผ์ ๋ณด๊ณ ๋ฅผ ์ง์ ํจ (Blankemeier et al.) | โ
์ง์ง๋จ (์ด๊ธฐ ์
์ฆ) |
| ๋๋ฉ์ธ ํนํ VLM์ด ๋ฒ์ฉ VLM๋ณด๋ค ์ฐ์ํ๋ค | ๋ค์์ ์ฐ๊ตฌ์์ ์ผ๊ด๋๊ฒ ๋ฐ๊ฒฌ๋จ (Ryu et al.) | โ
์ง์ง๋จ |
| 3D ์ธ์ ์ํคํ
์ฒ๊ฐ ์ฒด์ ์ง๋จ ๊ณผ์ ์ ์ ๋ฆฌํ๋ค | ๊ฐ ๋ณ๋ณ, ๋ฆผํ์ , ๊ฒฐ์ ํ๊ฐ์ ๊ดํ 23ํธ์ ์ฐ๊ตฌ๋ฅผ ๊ฒํ ํ์ฌ ๊ทผ๊ฑฐ๋ฅผ ์ข
ํฉํจ (Wu et al., ๋ฆฌ๋ทฐ) | โ
์ง์ง๋จ (๋ฆฌ๋ทฐ ๊ธฐ๋ฐ) |
| ์ค๋ช
๊ฐ๋ฅํ VLM์ด ํด์ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํ๋ฉด์๋ ์ ํ๋๋ฅผ ์ ์งํ๋ค | ๊ฐ๋
๊ฐํ ๋ฐฉ์์ด ์ค๋ช
๋ถ๊ฐ๋ฅํ ๊ธฐ์ค ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ (Nie et al.) | โ
์ง์ง๋จ (์ด๊ธฐ ๊ฒฐ๊ณผ) |
| ์๋ฃ VLM์ด ์์จ์ ์์ ๋ฐฐ์น์ ์ค๋น๋์ด ์๋ค | ์ ํฅ์ ์์์ํ ์์; ๊ท์ ๊ฒฝ๋ก ๋ฏธ์ | โ ๋ฐ๋ฐ๋จ |
์ธ๊ตฌํต๊ณํ์ ํธํฅ ์ฐ๋ ค
์๋ฃ VLM ์ฐ๊ตฌ ์ ๋ฐ์ ๊ฑธ์ณ ๋ฐ๋ณต์ ์ผ๋ก ์ ๊ธฐ๋๋ ๋ฌธ์ ๊ฐ ์๋ค: ํ๋ จ ๋ฐ์ดํฐ์
์ด ์๋์ ์ผ๋ก ๋ถ๋ฏธ ๋ฐ ์ ๋ฝ์ ํ์ ์๋ฃ ์ผํฐ์์ ์์ง๋๋ฉฐ, ๊ทธ ์ธ๊ตฌํต๊ณํ์ ๊ตฌ์ฑ์ด ์ ์ธ๊ณ ํ์ ์ง๋จ์ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ์ ์ด๋ค. ๊ณผ์ ๋ํ๋ ์ง๋จ์์ ๋ถ๊ท ํ์ ์ผ๋ก ๋ฐ์ํ๋ ์งํ๋คโ๋์์์์ ๊ฐ์ธํฌ์์ข
(hepatocellular carcinoma), ์ฌํ๋ผ ์ด๋จ ์ํ๋ฆฌ์นด์ ๊ฒฐํต(tuberculosis), ๋จ์์์์ ๋ฅ๋งํฐ์ค์ฑ ์ฌ์ฅ ์งํ(rheumatic heart disease)โ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฎ์ ์ง๋จ ์ ํ๋๋ฅผ ๋ณด์ผ ์ ์๋ค.
Merlin์ ํ๋ จ ๋ฐ์ดํฐ๋ ๋จ์ผ ๋ฏธ๊ตญ ํ์ ๊ธฐ๊ด์์ ์์ง๋ ๊ฒ์ด๋ค. ๊ทธ ์ฑ๋ฅ์ด ์๋ก ๋ค๋ฅธ ์ค์บ๋ ๋ชจ๋ธ, ๋ค๋ฅธ ์กฐ์ ํ๋กํ ์ฝ(contrast protocols), ๋ค๋ฅธ ์ฒดํ ๋ถํฌ๋ฅผ ๊ฐ์ง ํ์๋ค์ ๋์์ผ๋ก ํ๋ํ CT ์ค์บ์๋ ์ผ๋ฐํ๋ ์ ์๋์ง๋ ์์ง ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐ๋์ง ์์ ์ค์ฆ์ ์ง๋ฌธ์ด๋ค.
๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฐ ํฅํ ๋ฐฉํฅ
AI๊ฐ ์์ฑํ ์์์ํ ๋ณด๊ณ ์์๋ ์ด๋ค ๊ท์ ์ฒด๊ณ๊ฐ ์ ์ฉ๋๋๊ฐ? ํํ FDA ์ง์นจ์ ์ง๋จ ๋ณด์กฐ ๋๊ตฌ๋ก์์ AI๋ฅผ ๋ค๋ฃจ๊ณ ์์ผ๋, ์์์ํ๊ณผ ์ ๋ฌธ์์ ํ๋
์ ๋ณด์ํ๋ ๊ฒ์ด ์๋๋ผ ๋์ฒดํ๊ธฐ ์ํ AI ์์ฑ ๋ณด๊ณ ์๋ ๋ค๋ฃจ๊ณ ์์ง ์๋ค.์ฐํฉ ํ์ต(federated learning)์ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ค์ํํ ์ ์๋๊ฐ? ํ์ ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ์ง ์๊ณ ์ฌ๋ฌ ๋๋ฅ์ ๊ธฐ๊ด ๋ฐ์ดํฐ๋ก VLM์ ํ๋ จ์ํค๋ ๋ฐฉ์์ ์ธ๊ตฌํต๊ณํ์ ํธํฅ์ ํด์ํ ์ ์๋ค. ๋๊ท๋ชจ VLM์ ๋ํ ์ฐํฉ ํ์ต์ ํจ๊ณผ๋ ์์ง ํ๊ฐ ์ค์ด๋ค.VLM์ ๋ถํ์ค์ฑ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ? ์์์ํ๊ณผ ์ ๋ฌธ์๋ ๋ชจํธํ ์๊ฒฌ์ ์ ํ ๋ "์
์ฑ ์ข
์์ ๋ฐฐ์ ํ ์ ์์"์ด๋ผ๊ณ ๊ธฐ์ฌํ๊ณ ์ถ์ ๊ด์ฐฐ์ ๊ถ๊ณ ํ๋ค. VLM์ ์ด๋ถ๋ฒ์ ๋ถ๋ฅ๋ฅผ ์์ฑํ๋ ๋์ ์์์ ์ผ๋ก ์ ์ ํ ๋ฐฉ์์ผ๋ก ์ง๋จ์ ๋ถํ์ค์ฑ์ ํํํ๋ ๋ฒ์ ํ์ตํด์ผ ํ๋ค.AI ์์ฑ ๋ณด๊ณ ์์ ๋ํ ์๋ฃ๋ฒ์ ์ฑ
์์ ๋๊ตฌ์๊ฒ ์๋๊ฐ? VLM์ด ์์ฑํ ๋ณด๊ณ ์์์ ์์ ๋์ณค์ ๊ฒฝ์ฐ, ๊ทธ ์ฑ
์์ AI ๊ฐ๋ฐ์ฌ, ๋ณ์, ๊ฐ๋
์์์ํ๊ณผ ์ ๋ฌธ์ ์ค ๋๊ตฌ์๊ฒ ์๋๊ฐ?VLM์ ์ข
๋จ์ (longitudinal) ๋ฐ์ดํฐ๋ฅผ ํตํฉํ ์ ์๋๊ฐ? ํ์ฌ ๋ฐ ์ด์ ์์ ๊ฒ์ฌ๋ฅผ ๋น๊ตํ๋ ๊ฒ์ ์์์ํ์ ์ผ์์ ์ธ ๊ณผ์ ์ด๋ค. ์๊ฐ์ ์์๋ก ๊ตฌ์ฑ๋ ์์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ ๊ฒฝ๊ณผ ์ค ๋ณํ๋ฅผ ๊ฐ์งํ ์ ์๋ VLM์ ๋จ์ผ ๊ฒ์ฌ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์์์ ์ผ๋ก ํจ์ฌ ๋ ์ ์ฉํ ๊ฒ์ด๋ค.์์์ํ์ ๋ํ ์์ฌ์
์๋ฃ ๋น์ -์ธ์ด ๋ชจ๋ธ(vision-language model)์ ์์์ ์ผ๋ก ์ ์ฉํ ์์ค์ ์ ํ๋๋ก ์ผ์์ ์ธ ํ๋
์
๋ฌด๋ฅผ ์ํํ ์ ์๋ ๋จ๊ณ์ ๊ทผ์ ํ๊ณ ์๋ค. ์ด ๊ธฐ์ ์ ์ ํฅ์ ์์ ์ํ์ ์ ๋นํํ ๋งํผ ์ถฉ๋ถํ ์ฑ์ํด ์์ผ๋ฉฐ, ์ค์ ๋ก ์ฌ๋ฌ ์ํ์ด ํ์ฌ ๊ณํ ์ค์ด๊ฑฐ๋ ์งํ ์ค์ด๋ค.
์์์ํ ์ง๋ฃ์ ๋ณํ๋ ๊ฐ์์ค๋ฝ๊ฒ ์ด๋ฃจ์ด์ง์ง ์์ ๊ฒ์ด๋ค. ์ด๋ ์ ์ง์ ์ผ๋ก ์งํ๋ ๊ฒ์ด๋ค: AI๊ฐ ๋์ฉ๋ยท์ ๋ณต์ก๋ ๊ฒ์ฌ(์ ์ ํ๋ถ CT, ๋จ์ ๋ณต๋ถ ์ค์บ)๋ฅผ ์ฒ๋ฆฌํ๋ ๋์, ์์์ํ๊ณผ ์ ๋ฌธ์๋ ๋ณต์กํ ์ฆ๋ก, ์ค์ฌ์ ์์ , ์์ ์๋ฌธ์ ์ง์คํ๊ฒ ๋๋ค. ์ด๋ฌํ ๋๊ตฌ๋ค์ ์กฐ๊ธฐ์ ํ์ฉํ๋ฉฐโ๊ฐ์ ์ ์ตํ๊ณ , ์ค๋ฅ ์์์ ์ดํดํ๊ณ , ํ๋ จ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ๊ธฐ์ฌํ๋โ์์์ํ๊ณผ ์ ๋ฌธ์๋, ์ด๋ฅผ ์ํ์ผ๋ก ๋ณด๊ฑฐ๋ ๋จ์ํ ํธ๊ธฐ์ฌ์ ๋์์ผ๋ก ์ฌ๊ธฐ๋ ์ด๋ค๋ณด๋ค ๋ ์ ๋ฆฌํ ์์น์ ์๊ฒ ๋ ๊ฒ์ด๋ค.
References (4)
[1] Blankemeier, L., Cohen, J., Kumar, A. et al. (2024). Merlin: A computed tomography vision-language foundation model and dataset. Nature, 637, 943โ951.
[2] Ryu, J., Kang, H., Chu, Y. et al. (2025). Vision-language foundation models for medical imaging: A review of current practices and innovations. Biomedical Engineering Letters, 15(5), 809โ830.
[3] Wu, J., Wang, Y., Zhong, Z. et al. (2025). Vision-language foundation model for 3D medical imaging. npj Artificial Intelligence, 3, 15.
[4] Nie, Y., He, S., Bie, Y. et al. (2025). An explainable biomedical foundation model via large-scale concept-enhanced vision-language pre-training. arXiv preprint.