Paper ReviewAI & Machine Learning
SmolVLM: How 256M-Parameter Multimodal Models Challenge 80B Giants
HuggingFace's SmolVLM achieves competitive multimodal performance at 256M parameters by rethinking image tokenization and model architecture โ demonstrating that small vision-language models can match or approach models 100x their size on key benchmarks, enabling deployment on phones, robots, and edge devices.
By ORAA Research
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The dominant narrative in vision-language modeling has been one of scale: larger models, more data, better performance. GPT-4V, Gemini Ultra, and Claude 3.5 Sonnet operate at scales measured in hundreds of billions of parameters, requiring data center infrastructure for both training and inference. SmolVLM, released by HuggingFace, challenges this narrative directly โ not by denying that scale helps, but by demonstrating how much performance can be recovered at a fraction of the size.
At 256M parameters in its smallest configuration, SmolVLM fits on a smartphone. At 2B parameters, it runs comfortably on a laptop GPU. In both cases, it achieves benchmark scores that would have been state-of-the-art for models 10-100x larger just two years ago.
The Research Landscape
The Efficiency Thesis
Marafioti et al. (2025) argue that smaller VLMs have been held back not by fundamental capacity limitations but by inherited design choices from larger models. Specifically, the standard approach to processing images in VLMs โ encoding each image into hundreds or thousands of visual tokens โ was developed for models with the capacity to absorb that information. Applying the same tokenization to small models floods them with visual tokens that consume most of their limited context window and processing capacity.
SmolVLM's key innovation is efficient image tokenization. Rather than producing 576 or 1,024 visual tokens per image (typical for CLIP-ViT encoders fed to large VLMs), SmolVLM compresses visual information into far fewer tokens through:
Aggressive spatial pooling: Reducing spatial resolution before feeding visual features to the language model, retaining semantic content while discarding redundant spatial detail.
Learned compression: Training a lightweight projection module to compress visual features into a compact representation optimized for the language model's capacity.
Dynamic token budgeting: Allocating more tokens to complex images and fewer to simple ones, rather than using a fixed budget.
The SmolVLM paper reports results across standard VLM benchmarks:
- VQAv2 (visual question answering): SmolVLM-256M achieves scores approaching the performance of models like LLaVA-1.5 (7B), while using 3% of the parameters.
- TextVQA (reading text in images): Competitive performance, suggesting the visual encoder retains fine-grained information despite compression.
- MMMU (multi-discipline multimodal understanding): Performance scales with model size but the 2B variant shows strong results relative to parameter count.
The paper has attracted substantial citation counts since publication, reflecting the community's interest in the small-model paradigm.
The Broader Small VLM Movement
SmolVLM is part of a wider trend toward efficient multimodal models:
Qwen2-VL (Wang et al., 2024) introduces Naive Dynamic Resolution โ processing images at native resolution without fixed grids โ improving efficiency and performance simultaneously. TopV (Yang et al., 2025) attacks efficiency through token pruning, removing visual tokens that receive minimal attention for 2-3x speedup with minimal performance loss. DocSLM (Hannan et al., 2025) targets long document understanding, demonstrating that careful design enables small models to process multi-page documents.
From Vision-Language to Vision-Language-Action
SmolVLA (Shukor et al., 2025) extends the SmolVLM paradigm to robotics, creating a vision-language-action model that processes visual input, understands language instructions, and generates motor commands โ all at a model size that runs on robot hardware. This is perhaps the most compelling argument for small multimodal models: robots cannot carry data centers, but they need multimodal understanding.
Critical Analysis
<
| Claim | Evidence | Verdict |
|---|
| SmolVLM achieves competitive performance at 256M parameters | Benchmark scores close to 7B models on several tasks | โ
Supported โ though "competitive" requires context; large models still lead on complex reasoning |
| Image tokenization is the primary bottleneck for small VLMs | Ablations show that reducing visual tokens improves small model performance more than any other change | โ
Supported โ the token budget allocation is the key design choice |
| Small VLMs can deploy on edge devices | 256M model fits in ~500MB of RAM; demonstrated on mobile hardware | โ
Supported โ a genuine deployment capability |
| Small VLMs will replace large VLMs | Large models maintain advantages on complex multi-step reasoning, rare knowledge retrieval, and ambiguous queries | โ Not the claim โ SmolVLM targets different deployment scenarios, not replacement |
| The performance gap will continue closing | Architectural innovations specific to small models are a young research direction | โ ๏ธ Plausible โ but diminishing returns are expected as the easy gains are captured |
Where Small Models Fall Short
Intellectual honesty requires acknowledging where size still matters:
Complex reasoning chains: Tasks requiring 5+ step reasoning with intermediate visual understanding still favor large models. The small model's limited capacity struggles to maintain coherent reasoning across many steps.
Rare and fine-grained knowledge: Identifying specific species of birds, reading highly degraded text, or understanding obscure cultural references requires breadth of training data that correlates with model size.
Ambiguous instructions: When user intent is unclear, large models better leverage their broad world knowledge to infer the most likely interpretation. Small models tend toward more literal and occasionally incorrect interpretations.
Multi-image reasoning: Processing and comparing multiple images simultaneously strains small model capacity more than single-image understanding.
The Deployment Advantage
Where SmolVLM changes the landscape is deployment. On-device processing means visual data never leaves the device (privacy), eliminates network round-trips (latency under 100ms versus 500ms+ API calls), costs essentially nothing per query versus $0.01-$0.10 for cloud VLMs, and works offline in warehouses, vehicles, and disaster zones where connectivity is unreliable.
Open Questions
Training data efficiency: Can small VLMs be trained more efficiently with carefully curated data, or do they still require web-scale datasets?Specialization versus generality: Should small VLMs be general-purpose (like SmolVLM) or specialized for specific domains (medical, industrial, automotive)?Quantization interactions: How does aggressive quantization (INT4, INT2) interact with already-small models? Is there a floor below which model quality degrades unacceptably?Continual learning on-device: Can small VLMs be updated with new information on the device itself, enabling personalization without cloud connectivity?Multi-modal scaling laws: Do the scaling laws that govern large VLMs apply at the small end, or does a different efficiency regime emerge below a certain size threshold?Closing
SmolVLM demonstrates that the large-model assumption in vision-language AI is more convention than necessity. By rethinking image tokenization for the constraints of small models, HuggingFace has shown that 256M-parameter models can achieve substantial multimodal capability โ sufficient for many practical applications and deployable on hardware from smartphones to robots. The small VLM paradigm does not replace large models; it opens a different design space where latency, privacy, cost, and offline operation are the primary constraints. As this space matures, the question shifts from "how large can we make models?" to "how small can we make them while remaining useful?"
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๋ฐ๋์ ๊ฒ์ฆํด์ผ ํ๋ค.
SmolVLM: 2์ต 5600๋ง ํ๋ผ๋ฏธํฐ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด 800์ต ๊ฑฐ๋ ๋ชจ๋ธ์ ๋์ ํ๋ ๋ฐฉ๋ฒ
๋น์ -์ธ์ด ๋ชจ๋ธ๋ง์ ์ง๋ฐฐ์ ์ธ ์์ฌ๋ ๊ท๋ชจ์ ๊ดํ ๊ฒ์ด์๋ค. ๋ ํฐ ๋ชจ๋ธ, ๋ ๋ง์ ๋ฐ์ดํฐ, ๋ ๋์ ์ฑ๋ฅ. GPT-4V, Gemini Ultra, Claude 3.5 Sonnet์ ์์ฒ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์์ ์๋ํ๋ฉฐ, ํ๋ จ๊ณผ ์ถ๋ก ๋ชจ๋์ ๋ฐ์ดํฐ ์ผํฐ ์ธํ๋ผ๋ฅผ ํ์๋ก ํ๋ค. HuggingFace๊ฐ ๊ณต๊ฐํ SmolVLM์ ์ด๋ฌํ ์์ฌ์ ์ ๋ฉด์ผ๋ก ๋์ ํ๋ค. ๊ท๋ชจ๊ฐ ๋์์ด ๋๋ค๋ ์ฌ์ค์ ๋ถ์ ํ๋ ๊ฒ์ด ์๋๋ผ, ํจ์ฌ ์ ์ ํฌ๊ธฐ๋ก ์ผ๋ง๋ ๋ง์ ์ฑ๋ฅ์ ํ๋ณตํ ์ ์๋์ง๋ฅผ ์
์ฆํจ์ผ๋ก์จ ๊ทธ๋ ๊ฒ ํ๋ค.
๊ฐ์ฅ ์์ ๊ตฌ์ฑ์ธ 2์ต 5600๋ง ํ๋ผ๋ฏธํฐ์ SmolVLM์ ์ค๋งํธํฐ์๋ ํ์ฌํ ์ ์๋ค. 20์ต ํ๋ผ๋ฏธํฐ ๋ฒ์ ์ ๋
ธํธ๋ถ GPU์์ ์ํํ๊ฒ ์คํ๋๋ค. ๋ ๊ฒฝ์ฐ ๋ชจ๋, ๋ถ๊ณผ 2๋
์ ๋ง ํด๋ 10๋ฐฐ์์ 100๋ฐฐ ๋ ํฐ ๋ชจ๋ธ์์๋ ๋ณผ ์ ์์๋ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๋ฌ์ฑํ๋ค.
์ฐ๊ตฌ ๋ํฅ
ํจ์จ์ฑ ํ
์
Marafioti et al. (2025)์ ์ํ VLM์ด ๊ทผ๋ณธ์ ์ธ ์ฉ๋ ํ๊ณ๊ฐ ์๋๋ผ ๋ํ ๋ชจ๋ธ๋ก๋ถํฐ ๋ฌผ๋ ค๋ฐ์ ์ค๊ณ ์ ํ์ผ๋ก ์ธํด ๋ฐ๋ชฉ์ด ์กํ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, VLM์์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ ํ์ค ์ ๊ทผ ๋ฐฉ์, ์ฆ ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์๋ฐฑ ๋๋ ์์ฒ ๊ฐ์ ์๊ฐ์ ํ ํฐ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ฐฉ์์ ํด๋น ์ ๋ณด๋ฅผ ํก์ํ ์ฉ๋์ ๊ฐ์ถ ๋ํ ๋ชจ๋ธ์ ์ํด ๊ฐ๋ฐ๋ ๊ฒ์ด์๋ค. ๋์ผํ ํ ํฐํ ๋ฐฉ์์ ์ํ ๋ชจ๋ธ์ ์ ์ฉํ๋ฉด ์๊ฐ์ ํ ํฐ์ด ๋์ณํ๋ฌ ์ ํ๋ ์ปจํ
์คํธ ์๋์ฐ์ ์ฒ๋ฆฌ ์ฉ๋์ ๋๋ถ๋ถ์ ์๋ชจํ๊ฒ ๋๋ค.
SmolVLM์ ํต์ฌ ํ์ ์ ํจ์จ์ ์ธ ์ด๋ฏธ์ง ํ ํฐํ์ด๋ค. ์ด๋ฏธ์ง๋น 576๊ฐ ๋๋ 1,024๊ฐ์ ์๊ฐ์ ํ ํฐ์ ์์ฑํ๋ ๋ฐฉ์(๋ํ VLM์ ์ฐ๊ฒฐ๋ CLIP-ViT ์ธ์ฝ๋์ ์ผ๋ฐ์ ์ธ ์์น) ๋์ , SmolVLM์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ํตํด ์๊ฐ ์ ๋ณด๋ฅผ ํจ์ฌ ์ ์ ์์ ํ ํฐ์ผ๋ก ์์ถํ๋ค:
๊ณต๊ฒฉ์ ์ธ ๊ณต๊ฐ ํ๋ง(aggressive spatial pooling): ์๊ฐ์ ํน์ง์ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ฌํ๊ธฐ ์ ์ ๊ณต๊ฐ ํด์๋๋ฅผ ์ถ์ํ์ฌ, ๋ถํ์ํ ๊ณต๊ฐ์ ์ธ๋ถ ์ ๋ณด๋ ๋ฒ๋ฆฌ๋ฉด์ ์๋ฏธ๋ก ์ ๋ด์ฉ์ ์ ์งํ๋ค.
ํ์ต๋ ์์ถ(learned compression): ๊ฒฝ๋ ํฌ์ ๋ชจ๋์ ํ๋ จํ์ฌ ์๊ฐ์ ํน์ง์ ์ธ์ด ๋ชจ๋ธ์ ์ฉ๋์ ์ต์ ํ๋ ๊ฐ๊ฒฐํ ํํ์ผ๋ก ์์ถํ๋ค.
๋์ ํ ํฐ ์์ฐ ํ ๋น(dynamic token budgeting): ๊ณ ์ ๋ ์์ฐ์ ์ฌ์ฉํ๋ ๋์ , ๋ณต์กํ ์ด๋ฏธ์ง์๋ ๋ ๋ง์ ํ ํฐ์, ๋จ์ํ ์ด๋ฏธ์ง์๋ ๋ ์ ์ ํ ํฐ์ ํ ๋นํ๋ค.
๋ฒค์น๋งํฌ ์ฑ๋ฅ
SmolVLM ๋
ผ๋ฌธ์ ํ์ค VLM ๋ฒค์น๋งํฌ์ ๊ฑธ์น ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ๋ค:
- VQAv2 (์๊ฐ์ ์ง์์๋ต): SmolVLM-256M์ ํ๋ผ๋ฏธํฐ์ 3%๋ง์ ์ฌ์ฉํ๋ฉด์ LLaVA-1.5 (7B)์ ๊ฐ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทผ์ ํ๋ ์ ์๋ฅผ ๋ฌ์ฑํ๋ค.
- TextVQA (์ด๋ฏธ์ง ๋ด ํ
์คํธ ์ฝ๊ธฐ): ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ผ๋ก, ์์ถ์๋ ๋ถ๊ตฌํ๊ณ ์๊ฐ์ ์ธ์ฝ๋๊ฐ ์ธ๋ฐํ ์ ๋ณด๋ฅผ ์ ์งํจ์ ์์ฌํ๋ค.
- MMMU (๋คํ์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด): ์ฑ๋ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ํ์ฅ๋์ง๋ง, 2B ๋ณํ์ ํ๋ผ๋ฏธํฐ ์ ๋๋น ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
์ด ๋
ผ๋ฌธ์ ์ถํ ์ดํ ์๋นํ ์ธ์ฉ ํ์๋ฅผ ๊ธฐ๋กํ๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ํ ๋ชจ๋ธ ํจ๋ฌ๋ค์์ ๋ํ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๊ด์ฌ์ ๋ฐ์ํ๋ค.
์ํ VLM์ ๊ด๋ฒ์ํ ํ๋ฆ
SmolVLM์ ํจ์จ์ ์ธ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํฅํ ๋ ๋์ ํ๋ฆ์ ์ผ๋ถ์ด๋ค:
Qwen2-VL (Wang et al., 2024)์ ๊ณ ์ ๊ทธ๋ฆฌ๋ ์์ด ์๋ณธ ํด์๋๋ก ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ Naive Dynamic Resolution์ ๋์
ํ์ฌ, ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ํฅ์์ํจ๋ค. TopV (Yang et al., 2025)๋ ํ ํฐ ๊ฐ์ง์น๊ธฐ(token pruning)๋ฅผ ํตํด ํจ์จ์ฑ์ ์ถ๊ตฌํ๋ฉฐ, ์ต์ํ์ ์ดํ
์
์ ๋ฐ๋ ์๊ฐ์ ํ ํฐ์ ์ ๊ฑฐํ์ฌ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ฉด์ 2-3๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค. DocSLM (Hannan et al., 2025)์ ๊ธด ๋ฌธ์ ์ดํด๋ฅผ ๋ชฉํ๋ก ํ๋ฉฐ, ์ ์คํ ์ค๊ณ๋ฅผ ํตํด ์ํ ๋ชจ๋ธ๋ ๋ค์ค ํ์ด์ง ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ ์ ์์์ ์
์ฆํ๋ค.
๋น์ -์ธ์ด์์ ๋น์ -์ธ์ด-์ก์
์ผ๋ก
SmolVLA (Shukor et al., 2025)๋ SmolVLM ํจ๋ฌ๋ค์์ ๋ก๋ณดํฑ์ค๋ก ํ์ฅํ์ฌ, ์๊ฐ์ ์
๋ ฅ์ ์ฒ๋ฆฌํ๊ณ ์ธ์ด ๋ช
๋ น์ ์ดํดํ๋ฉฐ ๋ชจํฐ ๋ช
๋ น์ ์์ฑํ๋ vision-language-action ๋ชจ๋ธ์ ๊ตฌํํ์๋ค โ ๊ทธ๊ฒ๋ ๋ก๋ด ํ๋์จ์ด์์ ์คํ ๊ฐ๋ฅํ ๋ชจ๋ธ ํฌ๊ธฐ๋ก. ์ด๋ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๊ฐ์ฅ ์ค๋๋ ฅ ์๋ ๊ทผ๊ฑฐ์ผ ๊ฒ์ด๋ค: ๋ก๋ด์ ๋ฐ์ดํฐ ์ผํฐ๋ฅผ ํ์ฌํ ์ ์์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ์ ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋นํ์ ๋ถ์
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| SmolVLM์ 256M ํ๋ผ๋ฏธํฐ๋ก ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค | ์ฌ๋ฌ ํ์คํฌ์์ 7B ๋ชจ๋ธ์ ๊ทผ์ ํ ๋ฒค์น๋งํฌ ์ ์ | โ
์ง์ง๋จ โ ๋จ, "๊ฒฝ์๋ ฅ ์๋ค"๋ ํํ์ ๋งฅ๋ฝ์ด ํ์ํ๋ฉฐ, ๋ณต์กํ ์ถ๋ก ์์๋ ๋ํ ๋ชจ๋ธ์ด ์ฌ์ ํ ์์ ๋ค |
| ์ด๋ฏธ์ง ํ ํฐํ๊ฐ ์ํ VLM์ ์ฃผ๋ ๋ณ๋ชฉ์ด๋ค | ์๊ฐ์ ํ ํฐ ์ถ์๊ฐ ๋ค๋ฅธ ์ด๋ค ๋ณ๊ฒฝ๋ณด๋ค ์ํ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํจ์ ๋ณด์ด๋ ablation ๊ฒฐ๊ณผ | โ
์ง์ง๋จ โ ํ ํฐ ์์ฐ ๋ฐฐ๋ถ์ด ํต์ฌ ์ค๊ณ ์ ํ์ด๋ค |
| ์ํ VLM์ ์ฃ์ง ๋๋ฐ์ด์ค์ ๋ฐฐํฌ๋ ์ ์๋ค | 256M ๋ชจ๋ธ์ ์ฝ 500MB์ RAM์ ์ ์ฌ๋๋ฉฐ, ๋ชจ๋ฐ์ผ ํ๋์จ์ด์์์ ๊ตฌ๋์ด ์ค์ฆ๋์๋ค | โ
์ง์ง๋จ โ ์ค์ง์ ์ธ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ด ์๋ค |
| ์ํ VLM์ด ๋ํ VLM์ ๋์ฒดํ ๊ฒ์ด๋ค | ๋ํ ๋ชจ๋ธ์ ๋ณต์กํ ๋ค๋จ๊ณ ์ถ๋ก , ํฌ๊ท ์ง์ ๊ฒ์, ๋ชจํธํ ์ง์์์ ์ฐ์๋ฅผ ์ ์งํ๋ค | โ ํด๋น ์ฃผ์ฅ์ด ์๋ โ SmolVLM์ ๋์ฒด๊ฐ ์๋ ๋ค๋ฅธ ๋ฐฐํฌ ์๋๋ฆฌ์ค๋ฅผ ๋ชฉํ๋ก ํ๋ค |
| ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ ๊ณ์ ์ขํ์ง ๊ฒ์ด๋ค | ์ํ ๋ชจ๋ธ์ ํนํ๋ ์ํคํ
์ฒ ํ์ ์ ์์ง ์ด๊ธฐ ์ฐ๊ตฌ ๋จ๊ณ์ด๋ค | โ ๏ธ ๊ฐ๋ฅ์ฑ ์์ โ ๋จ, ์ฌ์ด ์ฑ๊ณผ๋ค์ด ํฌ์ฐฉ๋ ์ดํ์๋ ์ํ ์ฒด๊ฐ์ด ์์๋๋ค |
์ํ ๋ชจ๋ธ์ ํ๊ณ
ํฌ๊ธฐ๊ฐ ์ฌ์ ํ ์ค์ํ ์์ญ์ ์ธ์ ํ๋ ๊ฒ์ด ์ง์ ์ ์ง์ฑ์ ์๊ฑด์ด๋ค:
๋ณต์กํ ์ถ๋ก ์ฐ์: ์ค๊ฐ ๋จ๊ณ์ ์๊ฐ์ ์ดํด๋ฅผ ์๋ฐํ๋ 5๋จ๊ณ ์ด์์ ์ถ๋ก ์ด ํ์ํ ํ์คํฌ์์๋ ์ฌ์ ํ ๋ํ ๋ชจ๋ธ์ด ์ ๋ฆฌํ๋ค. ์ํ ๋ชจ๋ธ์ ์ ํ๋ ์ฉ๋์ผ๋ก ์ธํด ์ฌ๋ฌ ๋จ๊ณ์ ๊ฑธ์น ์ผ๊ด๋ ์ถ๋ก ์ ์ ์งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค.
ํฌ๊ทํ๊ณ ์ธ๋ฐํ ์ง์: ํน์ ์กฐ๋ฅ ์ข
์ ์๋ณ, ์ฌํ๊ฒ ํผ์๋ ํ
์คํธ ํ๋
, ๋๋ ๋ํดํ ๋ฌธํ์ ์ฐธ์กฐ์ ์ดํด๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ์๊ด๊ด๊ณ๊ฐ ์๋ ๊ด๋ฒ์ํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๋ค.
๋ชจํธํ ๋ช
๋ น: ์ฌ์ฉ์์ ์๋๊ฐ ๋ถ๋ถ๋ช
ํ ๊ฒฝ์ฐ, ๋ํ ๋ชจ๋ธ์ ํญ๋์ ์ธ๊ณ ์ง์์ ํ์ฉํ์ฌ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ๋์ ํด์์ ๋ ์ ์ถ๋ก ํ๋ค. ์ํ ๋ชจ๋ธ์ ๋ณด๋ค ๋ฌธ์์ ์ด๊ณ ๋๋ก๋ ๋ถ์ ํํ ํด์์ผ๋ก ์น์ฐ์น๋ ๊ฒฝํฅ์ด ์๋ค.
๋ค์ค ์ด๋ฏธ์ง ์ถ๋ก : ์ฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์ฒ๋ฆฌํ๊ณ ๋น๊ตํ๋ ์์
์ ๋จ์ผ ์ด๋ฏธ์ง ์ดํด๋ณด๋ค ์ํ ๋ชจ๋ธ์ ์ฉ๋์ ๋ ํฐ ๋ถ๋ด์ ์ค๋ค.
๋ฐฐํฌ ์ธก๋ฉด์ ์ด์
SmolVLM์ด ํ๋๋ฅผ ๋ฐ๊พธ๋ ์ง์ ์ ๋ฐ๋ก ๋ฐฐํฌ์ด๋ค. ์จ๋๋ฐ์ด์ค ์ฒ๋ฆฌ๋ ์๊ฐ ๋ฐ์ดํฐ๊ฐ ๋๋ฐ์ด์ค ๋ฐ์ผ๋ก ๋๊ฐ์ง ์์์ ์๋ฏธํ๋ฉฐ(ํ๋ผ์ด๋ฒ์), ๋คํธ์ํฌ ์๋ณต์ ์ ๊ฑฐํ๊ณ (API ํธ์ถ์ 500ms ์ด์ ๋๋น 100ms ๋ฏธ๋ง์ ์ง์ฐ), ์ฟผ๋ฆฌ๋น ๋น์ฉ์ด ํด๋ผ์ฐ๋ VLM์ $0.01โ$0.10์ ๋นํด ์ฌ์ค์ ๋ฌด๋ฃ์ด๋ฉฐ, ์ฐ๊ฒฐ์ด ๋ถ์์ ํ ๋ฌผ๋ฅ ์ฐฝ๊ณ , ์ฐจ๋, ์ฌ๋ ์ง์ญ์์๋ ์คํ๋ผ์ธ์ผ๋ก ์๋ํ๋ค.
๋ฏธํด๊ฒฐ ์ง๋ฌธ
ํ์ต ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ํ VLM์ ์ ๋ฐํ๊ฒ ์ ๋ณ๋ ๋ฐ์ดํฐ๋ก ๋ ํจ์จ์ ์ผ๋ก ํ์ต๋ ์ ์๋๊ฐ, ์๋๋ฉด ์ฌ์ ํ ์น ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์ด ํ์ํ๊ฐ?ํนํ ๋ ๋ฒ์ฉ์ฑ: ์ํ VLM์ SmolVLM์ฒ๋ผ ๋ฒ์ฉ์ผ๋ก ์ค๊ณ๋์ด์ผ ํ๋๊ฐ, ์๋๋ฉด ํน์ ๋๋ฉ์ธ(์๋ฃ, ์ฐ์
, ์๋์ฐจ)์ ํนํ๋์ด์ผ ํ๋๊ฐ?์์ํ ์ํธ์์ฉ: ๊ณต๊ฒฉ์ ์ธ ์์ํ(INT4, INT2)๋ ์ด๋ฏธ ์ํ์ธ ๋ชจ๋ธ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋๊ฐ? ๋ชจ๋ธ ํ์ง์ด ํ์ฉ ๋ถ๊ฐ๋ฅํ ์์ค์ผ๋ก ์ ํ๋๋ ํํ์ ์ด ์กด์ฌํ๋๊ฐ?์จ๋๋ฐ์ด์ค ์ง์ ํ์ต: ์ํ VLM์ ํด๋ผ์ฐ๋ ์ฐ๊ฒฐ ์์ด๋ ๋๋ฐ์ด์ค ์์ฒด์์ ์๋ก์ด ์ ๋ณด๋ก ์
๋ฐ์ดํธ๋์ด ๊ฐ์ธํ๊ฐ ๊ฐ๋ฅํ๊ฐ?๋ฉํฐ๋ชจ๋ฌ ์ค์ผ์ผ๋ง ๋ฒ์น: ๋ํ VLM์ ์ง๋ฐฐํ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์ํ ์์ญ์๋ ์ ์ฉ๋๋๊ฐ, ์๋๋ฉด ํน์ ํฌ๊ธฐ ์๊ณ๊ฐ ์ดํ์์ ๋ค๋ฅธ ํจ์จ์ฑ ์ฒด๊ณ๊ฐ ๋ํ๋๋๊ฐ?๋ง์น๋ฉฐ
SmolVLM์ ๋น์ -์ธ์ด AI์์ ๋ํ ๋ชจ๋ธ์ ๋ํ ๊ฐ์ ์ด ํ์ฐ์ฑ์ด๋ผ๊ธฐ๋ณด๋ค๋ ๊ดํ์ ๊ฐ๊น๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. HuggingFace๋ ์ํ ๋ชจ๋ธ์ ์ ์ฝ์ ๋ง๊ฒ ์ด๋ฏธ์ง ํ ํฐํ ๋ฐฉ์์ ์ฌ์ค๊ณํจ์ผ๋ก์จ, 256M ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ด ์๋นํ ์์ค์ ๋ฉํฐ๋ชจ๋ฌ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ ์ ์์์ ์
์ฆํ์๋ค. ์ด๋ ๋ค์ํ ์ค์ฉ์ ์์ฉ์ ์ถฉ๋ถํ๋ฉฐ, ์ค๋งํธํฐ๋ถํฐ ๋ก๋ด์ ์ด๋ฅด๋ ํ๋์จ์ด์ ๋ฐฐํฌ ๊ฐ๋ฅํ๋ค. ์ํ VLM ํจ๋ฌ๋ค์์ ๋ํ ๋ชจ๋ธ์ ๋์ฒดํ๋ ๊ฒ์ด ์๋๋ผ, ์ง์ฐ ์๊ฐ, ํ๋ผ์ด๋ฒ์, ๋น์ฉ, ์คํ๋ผ์ธ ์ด์ฉ์ด ์ฃผ๋ ์ ์ฝ ์กฐ๊ฑด์ด ๋๋ ๋ณ๊ฐ์ ์ค๊ณ ๊ณต๊ฐ์ ์ด์ด์ค๋ค. ์ด ๊ณต๊ฐ์ด ์ฑ์ํด๊ฐ์ ๋ฐ๋ผ, ํต์ฌ ์ง๋ฌธ์ "๋ชจ๋ธ์ ์ผ๋ง๋ ํฌ๊ฒ ๋ง๋ค ์ ์๋๊ฐ?"์์ "์ ์ฉ์ฑ์ ์ ์งํ๋ฉด์ ์ผ๋ง๋ ์๊ฒ ๋ง๋ค ์ ์๋๊ฐ?"๋ก ์ ํ๋๋ค.
References (5)
Marafioti, A., Zohar, O., & Farrรฉ, M. et al. (2025). SmolVLM: Redefining small and efficient multimodal models. arXiv preprint.
Wang, P., Bai, S., & Tan, S. et al. (2024). Qwen2-VL: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint.
Yang, C., Sui, Y., & Xiao, J. et al. (2025). TopV: Compatible token pruning with inference time optimization for fast and low-memory multimodal VLM. CVPR 2025.
Shukor, M., Aubakirova, D., & Capuano, F. et al. (2025). SmolVLA: A vision-language-action model for affordable and efficient robotics. arXiv preprint.
Hannan, T., Mallios, D., & Pathak, P. (2025). DocSLM: A small vision-language model for long multimodal document understanding. arXiv preprint.