Methodology GuideAI & Machine Learning
Speculative Decoding Meets Quantization: Compatible or Conflicting?
Speculative decoding and quantization both accelerate LLM inference, but do they work well together? Zhang et al. find that naive combinations can degrade performance, and propose a hierarchical framework achieving 2.78x speedup on quantized Llama-3-70B.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Two of the most effective techniques for accelerating large language model inference โ speculative decoding and quantization โ have largely been studied in isolation. Speculative decoding uses a small "draft" model to generate candidate tokens that a larger "target" model verifies in parallel, reducing the number of expensive forward passes. Quantization reduces the numerical precision of model weights (e.g., from 16-bit to 4-bit), shrinking memory footprint and accelerating individual operations. Both techniques work. The question Zhang et al. (2025) ask is whether they work together.
The answer turns out to be conditional. Some combinations yield additive benefits. Others create interference patterns where the acceleration from one technique is partially consumed by overhead introduced by the other.
Research Landscape: Two Acceleration Paradigms
Speculative decoding operates at the algorithmic level. The core mechanism is draft-then-verify: a lightweight model (the "drafter") proposes a sequence of tokens, and the full-size model checks them in a single batched forward pass. When the drafter's guesses are correct โ which, for well-chosen draft models, happens frequently โ the target model processes multiple tokens for the cost of one pass. The EAGLE-2 variant extends this with tree-structured drafting, where the drafter proposes multiple branching continuations simultaneously.
Quantization operates at the numerical level. By representing weights with fewer bits, quantized models require less memory bandwidth โ often the primary bottleneck on modern GPUs. A 4-bit quantized 70B model can run on hardware that would be insufficient for the full-precision version, democratizing access to large models.
Each technique has been extensively validated independently. The natural next step is combining them. But as Zhang et al. demonstrate, the interaction is not simply additive.
The Compatibility Problem
The core finding is that tree-style draft verification introduces computational overhead that can offset the memory efficiency gains of quantization. Specifically, when EAGLE-2's tree-structured speculation is applied to a 4-bit weight-quantized model, the memory access advantages of quantization diminish. The tree verification step requires holding multiple candidate sequences in memory and performing parallel verification, which reintroduces memory pressure that quantization was supposed to alleviate.
This is not a minor implementation detail. It reflects a fundamental tension: speculative decoding trades memory for speed (by maintaining draft and target models simultaneously), while quantization trades precision for memory savings. When both operate on the same inference pipeline, their resource demands partially conflict.
The Hierarchical Framework
Zhang et al. propose a hierarchical architecture to resolve this tension. The key insight is to insert an intermediate model between the tree-structured drafter and the quantized target model. This intermediate layer converts tree-style drafts (multiple branching candidates) into sequence drafts (a single linear candidate sequence). The quantized target model then verifies the sequence draft, which allows it to fully exploit its memory access advantages without the overhead of tree verification.
The architecture thus becomes three-tiered:
Draft model (small, fast): generates tree-structured candidate continuations
Intermediate model (medium): collapses the tree into a single best-candidate sequence
Target model (large, quantized): verifies the sequence with minimal overheadTesting on a 4-bit weight-quantized Llama-3-70B running on an A100 GPU, the hierarchical framework achieves a 2.78x speedup across various tasks, outperforming the EAGLE-2 baseline by 1.31x.
Critical Analysis: Claims and Evidence
<
| Claim | Source | Assessment |
|---|
| Tree-style speculation degrades on quantized models | Experimental results | Supported; the mechanism (memory overhead vs. bandwidth savings) is clearly explained |
| Hierarchical framework achieves 2.78x speedup | Benchmarks on 4-bit Llama-3-70B, A100 | Supported on tested hardware; generalizability to other GPUs and model sizes needs verification |
| Outperforms EAGLE-2 by 1.31x | Same benchmark conditions | Supported under reported conditions |
| First systematic study of this compatibility | Literature review | Plausible; no prior comprehensive evaluation identified |
Limitations Worth Noting
The results are reported on a single model family (Llama-3-70B) and a single GPU (A100). The degree to which the hierarchical framework generalizes to other architectures (Mistral, Qwen, Gemma) and hardware (H100, consumer GPUs) is untested. Given that the performance characteristics of speculative decoding are sensitive to hardware-specific memory bandwidth and compute ratios, extrapolation should be cautious.
The intermediate model introduces additional complexity and latency. While the net effect is positive in the reported experiments, there may be scenarios โ particularly with smaller target models where quantization overhead is already low โ where the intermediate layer adds cost without sufficient benefit.
The study focuses on weight-only quantization (4-bit weights). Activation quantization, which reduces precision of intermediate computations during inference, presents different compatibility challenges that are not addressed.
Design Implications for Practitioners
The practical takeaway is that combining acceleration techniques requires careful profiling, not assumption. A common production pattern is to quantize a model for deployment and then add speculative decoding for additional speed. Zhang et al.'s work suggests this sequential approach may underperform relative to a co-designed solution.
For teams deploying quantized models:
- Profile before combining: Measure actual throughput of the quantized model alone, then with speculative decoding. The combination may not yield expected gains.
- Consider the hierarchical approach: If using tree-structured speculation (EAGLE-2 or similar), the intermediate conversion layer may be worth the additional engineering.
- Hardware matters: The optimal combination strategy depends on the specific GPU's memory bandwidth-to-compute ratio. What works on an A100 may not transfer to an H100 or an RTX 4090.
Open Questions
Scaling to smaller models: Does the compatibility problem persist at smaller scales (7B, 13B), where quantization overhead is proportionally different?Activation quantization: How does the compatibility picture change when both weights and activations are quantized?KV-cache quantization: Speculative decoding with tree verification generates large key-value caches. Can KV-cache quantization be added as a fourth optimization without creating new interference?Automatic co-optimization: Can the choice of speculative decoding variant and quantization scheme be automated based on hardware profiling, rather than requiring manual experimentation?Quality impact: The study focuses on speed. Does the combination of speculative decoding and quantization introduce additional quality degradation beyond what each technique causes individually?๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ฌธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ํ์ธํด์ผ ํ๋ค.
์ถ์ธก์ ๋์ฝ๋ฉ๊ณผ ์์ํ์ ๋ง๋จ: ํธํ์ธ๊ฐ, ์ถฉ๋์ธ๊ฐ?
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ถ๋ก ์ ๊ฐ์ํํ๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ธ ์ถ์ธก์ ๋์ฝ๋ฉ(speculative decoding)๊ณผ ์์ํ(quantization)๋ ๋๋ถ๋ถ ๋
๋ฆฝ์ ์ผ๋ก ์ฐ๊ตฌ๋์ด ์๋ค. ์ถ์ธก์ ๋์ฝ๋ฉ์ ์๊ท๋ชจ "๋๋ํํธ(draft)" ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ๋ณด ํ ํฐ์ ์์ฑํ๊ณ , ๋ ํฐ "ํ๊น(target)" ๋ชจ๋ธ์ด ์ด๋ฅผ ๋ณ๋ ฌ๋ก ๊ฒ์ฆํจ์ผ๋ก์จ ๋น์ฉ์ด ๋์ ์์ ํ ํ์๋ฅผ ์ค์ธ๋ค. ์์ํ๋ ๋ชจ๋ธ ๊ฐ์ค์น์ ์์น ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ์ด(์: 16๋นํธ์์ 4๋นํธ๋ก) ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ๊ฐ๋ณ ์ฐ์ฐ์ ๊ฐ์ํํ๋ค. ๋ ๊ธฐ๋ฒ ๋ชจ๋ ํจ๊ณผ๊ฐ ์๋ค. Zhang et al. (2025)์ด ์ ๊ธฐํ๋ ์ง๋ฌธ์ ์ด ๋ ๊ธฐ๋ฒ์ด ํจ๊ป ์๋ํ๋๊ฐ์ด๋ค.
๊ทธ ๋ต์ ์กฐ๊ฑด๋ถ์ธ ๊ฒ์ผ๋ก ๋ฐํ์ก๋ค. ์ผ๋ถ ์กฐํฉ์ ์ด์ ์ด ๋ํด์ง๋ ํจ๊ณผ๋ฅผ ๋ธ๋ค. ๋ฐ๋ฉด ๋ค๋ฅธ ์กฐํฉ์ ํ ๊ธฐ๋ฒ์ ๊ฐ์ ํจ๊ณผ๊ฐ ๋ค๋ฅธ ๊ธฐ๋ฒ์ด ์ ๋ฐํ๋ ์ค๋ฒํค๋์ ์ํด ๋ถ๋ถ์ ์ผ๋ก ์์๋๋ ๊ฐ์ญ ํจํด์ ๋ง๋ค์ด๋ธ๋ค.
์ฐ๊ตฌ ํํฉ: ๋ ๊ฐ์ง ๊ฐ์ ํจ๋ฌ๋ค์
์ถ์ธก์ ๋์ฝ๋ฉ์ ์๊ณ ๋ฆฌ์ฆ ์์ค์์ ์๋ํ๋ค. ํต์ฌ ๋ฉ์ปค๋์ฆ์ ์ด์ ์์ฑ ํ ๊ฒ์ฆ์ด๋ค. ๊ฒฝ๋ ๋ชจ๋ธ("๋๋ํํฐ")์ด ํ ํฐ ์ํ์ค๋ฅผ ์ ์ํ๋ฉด, ์ ์ฒด ํฌ๊ธฐ์ ๋ชจ๋ธ์ด ๋จ์ผ ๋ฐฐ์น ์์ ํ๋ฅผ ํตํด ์ด๋ฅผ ํ์ธํ๋ค. ๋๋ํํฐ์ ์์ธก์ด ์ ํํ ๋ โ ์ ์ ํ๋ ๋๋ํํธ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ด๋ ์์ฃผ ๋ฐ์ํ๋ค โ ํ๊น ๋ชจ๋ธ์ ํ๋์ ํจ์ค ๋น์ฉ์ผ๋ก ์ฌ๋ฌ ํ ํฐ์ ์ฒ๋ฆฌํ๋ค. EAGLE-2 ๋ณํ์ ๋๋ํํฐ๊ฐ ์ฌ๋ฌ ๋ถ๊ธฐ ํ๋ณด๋ฅผ ๋์์ ์ ์ํ๋ ํธ๋ฆฌ ๊ตฌ์กฐ ์ด์ ์์ฑ ๋ฐฉ์์ผ๋ก ์ด๋ฅผ ํ์ฅํ๋ค.
์์ํ๋ ์์น ์์ค์์ ์๋ํ๋ค. ๋ ์ ์ ๋นํธ๋ก ๊ฐ์ค์น๋ฅผ ํํํจ์ผ๋ก์จ ์์ํ๋ ๋ชจ๋ธ์ ๋ ์ ์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ํ์๋ก ํ๋ฉฐ, ์ด๋ ํ๋ GPU์ ์ฃผ๋ ๋ณ๋ชฉ ์ง์ ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. 4๋นํธ๋ก ์์ํ๋ 70B ๋ชจ๋ธ์ ์ ์ฒด ์ ๋ฐ๋ ๋ฒ์ ์๋ ๋ถ์กฑํ ํ๋์จ์ด์์๋ ์คํ๋ ์ ์์ด, ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ํ ์ ๊ทผ์ฑ์ ๋์ธ๋ค.
๊ฐ ๊ธฐ๋ฒ์ ๋
๋ฆฝ์ ์ผ๋ก ํญ๋๊ฒ ๊ฒ์ฆ๋์ด ์๋ค. ๋ค์ ์์ฐ์ค๋ฌ์ด ๋จ๊ณ๋ ๋ ๊ธฐ๋ฒ์ ๊ฒฐํฉ์ด๋ค. ๊ทธ๋ฌ๋ Zhang et al.์ด ๋ณด์ฌ์ฃผ๋ฏ์ด, ๋ ๊ธฐ๋ฒ์ ์ํธ์์ฉ์ ๋จ์ํ ๋ํด์ง๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง์ง ์๋๋ค.
ํธํ์ฑ ๋ฌธ์
ํต์ฌ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ํธ๋ฆฌ ๋ฐฉ์์ ์ด์ ๊ฒ์ฆ์ด ์์ํ์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ ์ด์ ์ ์์ํ ์ ์๋ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ ๋ฐํ๋ค๋ ๊ฒ์ด๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, EAGLE-2์ ํธ๋ฆฌ ๊ตฌ์กฐ ์ถ์ธก์ด 4๋นํธ ๊ฐ์ค์น ์์ํ ๋ชจ๋ธ์ ์ ์ฉ๋ ๋ ์์ํ์ ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ ์ด์ ์ด ๊ฐ์ํ๋ค. ํธ๋ฆฌ ๊ฒ์ฆ ๋จ๊ณ๋ ์ฌ๋ฌ ํ๋ณด ์ํ์ค๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์งํ๊ณ ๋ณ๋ ฌ ๊ฒ์ฆ์ ์ํํด์ผ ํ๋ฏ๋ก, ์์ํ๊ฐ ์ํํ๋ ค ํ๋ ๋ฉ๋ชจ๋ฆฌ ์๋ฐ์ด ๋ค์ ๋ฐ์ํ๋ค.
์ด๋ ์ฌ์ํ ๊ตฌํ ์ธ๋ถ ์ฌํญ์ด ์๋๋ค. ์ด๋ ๊ทผ๋ณธ์ ์ธ ๊ธด์ฅ ๊ด๊ณ๋ฅผ ๋ฐ์ํ๋ค. ์ถ์ธก์ ๋์ฝ๋ฉ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋์ ๊ตํ(๋๋ํํธ ๋ชจ๋ธ๊ณผ ํ๊น ๋ชจ๋ธ์ ๋์์ ์ ์ง)ํ๋ ๋ฐ๋ฉด, ์์ํ๋ ์ ๋ฐ๋๋ฅผ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๊ณผ ๊ตํํ๋ค. ๋์ผํ ์ถ๋ก ํ์ดํ๋ผ์ธ์์ ๋ ๊ธฐ๋ฒ์ด ๋ชจ๋ ์๋ํ ๋, ์ด๋ค์ ์์ ์๊ตฌ๊ฐ ๋ถ๋ถ์ ์ผ๋ก ์ถฉ๋ํ๋ค.
๊ณ์ธต์ ํ๋ ์์ํฌ
Zhang et al.์ ์ด ๊ธด์ฅ ๊ด๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ณ์ธต์ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค. ํต์ฌ ํต์ฐฐ์ ํธ๋ฆฌ ๊ตฌ์กฐ ๋๋ํํฐ์ ์์ํ๋ ํ๊น ๋ชจ๋ธ ์ฌ์ด์ ์ค๊ฐ ๋ชจ๋ธ์ ์ฝ์
ํ๋ ๊ฒ์ด๋ค. ์ด ์ค๊ฐ ๊ณ์ธต์ ํธ๋ฆฌ ๋ฐฉ์์ ์ด์(์ฌ๋ฌ ๋ถ๊ธฐ ํ๋ณด)์ ์ํ์ค ์ด์(๋จ์ผ ์ ํ ํ๋ณด ์ํ์ค)์ผ๋ก ๋ณํํ๋ค. ๊ทธ๋ฌ๋ฉด ์์ํ๋ ํ๊น ๋ชจ๋ธ์ด ์ํ์ค ์ด์์ ๊ฒ์ฆํ๋ฉฐ, ํธ๋ฆฌ ๊ฒ์ฆ์ ์ค๋ฒํค๋ ์์ด ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ ์ด์ ์ ์์ ํ ํ์ฉํ ์ ์๋ค.
์ด์ ๋ฐ๋ผ ์ํคํ
์ฒ๋ 3๋จ๊ณ ๊ตฌ์กฐ๊ฐ ๋๋ค:
๋๋ํํธ ๋ชจ๋ธ (์๊ท๋ชจ, ๋น ๋ฆ): ํธ๋ฆฌ ๊ตฌ์กฐ์ ํ๋ณด ์ฐ์ ํ ํฐ ์์ฑ
์ค๊ฐ ๋ชจ๋ธ (์ค๊ฐ ๊ท๋ชจ): ํธ๋ฆฌ๋ฅผ ๋จ์ผ ์ต์ ํ๋ณด ์ํ์ค๋ก ์ถ์
ํ๊น ๋ชจ๋ธ (๋๊ท๋ชจ, ์์ํ๋จ): ์ต์ํ์ ์ค๋ฒํค๋๋ก ์ํ์ค ๊ฒ์ฆ
A100 GPU์์ ์คํ๋๋
4๋นํธ ๊ฐ์ค์น ์์ํ Llama-3-70B๋ฅผ ๋์์ผ๋ก ํ
์คํธํ ๊ฒฐ๊ณผ, ๊ณ์ธต์ ํ๋ ์์ํฌ๋ ๋ค์ํ ํ์คํฌ์์
2.78๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ฉฐ EAGLE-2 ๊ธฐ์ค์ ๋๋น
1.31๋ฐฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ์ถ์ฒ | ํ๊ฐ |
|---|
| ํธ๋ฆฌ ๋ฐฉ์์ ์ถ์ธก์ ์์ํ ๋ชจ๋ธ์์ ์ฑ๋ฅ์ด ์ ํ๋๋ค | ์คํ ๊ฒฐ๊ณผ | ์ง์ง๋จ; ๋ฉ์ปค๋์ฆ(๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋ ๋ ๋์ญํญ ์ ๊ฐ)์ด ๋ช
ํํ ์ค๋ช
๋จ |
| ๊ณ์ธต์ ํ๋ ์์ํฌ๊ฐ 2.78๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค | 4๋นํธ Llama-3-70B, A100 ๋ฒค์น๋งํฌ | ํ
์คํธ๋ ํ๋์จ์ด์์ ์ง์ง๋จ; ๋ค๋ฅธ GPU ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆ ํ์ |
| EAGLE-2 ๋๋น 1.31๋ฐฐ ์ฑ๋ฅ ์ฐ์ | ๋์ผํ ๋ฒค์น๋งํฌ ์กฐ๊ฑด | ๋ณด๊ณ ๋ ์กฐ๊ฑด ํ์์ ์ง์ง๋จ |
| ์ด ํธํ์ฑ์ ๊ดํ ์ต์ด์ ์ฒด๊ณ์ ์ฐ๊ตฌ | ๋ฌธํ ๊ฒํ | ํ๋นํจ; ์ ํ ์ข
ํฉ ํ๊ฐ๊ฐ ํ์ธ๋์ง ์์ |
์ฃผ๋ชฉํ ๋งํ ํ๊ณ์
๊ฒฐ๊ณผ๋ ๋จ์ผ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(Llama-3-70B)์ ๋จ์ผ GPU(A100)์์ ๋ณด๊ณ ๋๋ค. ๊ณ์ธต์ ํ๋ ์์ํฌ๊ฐ ๋ค๋ฅธ ์ํคํ
์ฒ(Mistral, Qwen, Gemma) ๋ฐ ํ๋์จ์ด(H100, ์๋น์์ฉ GPU)๋ก ์ผ๋ง๋ ์ผ๋ฐํ๋ ์ ์๋์ง๋ ๊ฒ์ฆ๋์ง ์์๋ค. ํฌ๊ธฐ์ ๋์ฝ๋ฉ์ ์ฑ๋ฅ ํน์ฑ์ด ํ๋์จ์ด๋ณ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ฐ ์ฐ์ฐ ๋น์จ์ ๋ฏผ๊ฐํ๋ค๋ ์ ์ ๊ณ ๋ คํ ๋, ์ธ์ฝ์ ์ ์คํ๊ฒ ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค.
์ค๊ฐ ๋ชจ๋ธ์ ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ๊ณผ ์ง์ฐ ์๊ฐ์ ๋์
ํ๋ค. ๋ณด๊ณ ๋ ์คํ์์ ์ํจ๊ณผ๋ ๊ธ์ ์ ์ด์ง๋ง, ํนํ ์์ํ ์ค๋ฒํค๋๊ฐ ์ด๋ฏธ ๋ฎ์ ์๊ท๋ชจ ํ๊น ๋ชจ๋ธ์ ๊ฒฝ์ฐ์ ๊ฐ์ด ์ค๊ฐ ๋ ์ด์ด๊ฐ ์ถฉ๋ถํ ์ด์ ์์ด ๋น์ฉ๋ง ์ถ๊ฐํ๋ ์๋๋ฆฌ์ค๊ฐ ์กด์ฌํ ์ ์๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๊ฐ์ค์น ์ ์ฉ ์์ํ(4๋นํธ ๊ฐ์ค์น)์ ์ด์ ์ ๋ง์ถ๋ค. ์ถ๋ก ์ค ์ค๊ฐ ์ฐ์ฐ์ ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ๋ ํ์ฑํ ์์ํ๋ ์๋ก ๋ค๋ฅธ ํธํ์ฑ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ฉฐ, ์ด๋ ๋ค๋ฃจ์ด์ง์ง ์๋๋ค.
์ค๋ฌด์๋ฅผ ์ํ ์ค๊ณ ์์ฌ์
์ค์ง์ ์ธ ์์ฌ์ ์ ๊ฐ์ ๊ธฐ๋ฒ์ ๊ฒฐํฉํ ๋๋ ๊ฐ์ ์ด ์๋ ์ ์คํ ํ๋กํ์ผ๋ง์ด ํ์ํ๋ค๋ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ธ ํ๋ก๋์
ํจํด์ ๋ฐฐํฌ๋ฅผ ์ํด ๋ชจ๋ธ์ ์์ํํ ํ ์ถ๊ฐ์ ์ธ ์๋ ํฅ์์ ์ํด ํฌ๊ธฐ์ ๋์ฝ๋ฉ์ ์ ์ฉํ๋ ๊ฒ์ด๋ค. Zhang et al.์ ์ฐ๊ตฌ๋ ์ด๋ฌํ ์์ฐจ์ ์ ๊ทผ ๋ฐฉ์์ด ๊ณต๋ ์ค๊ณ๋ ์๋ฃจ์
์ ๋นํด ์ฑ๋ฅ์ด ์ ์กฐํ ์ ์์์ ์์ฌํ๋ค.
์์ํ ๋ชจ๋ธ์ ๋ฐฐํฌํ๋ ํ์ ์ํ ์ง์นจ:
- ๊ฒฐํฉ ์ ํ๋กํ์ผ๋ง: ์์ํ ๋ชจ๋ธ ๋จ๋
์ ์ค์ ์ฒ๋ฆฌ๋์ ์ธก์ ํ ํ ํฌ๊ธฐ์ ๋์ฝ๋ฉ๊ณผ ๊ฒฐํฉํ์ฌ ์ธก์ ํ๋ค. ๊ฒฐํฉ์ด ๊ธฐ๋ํ๋ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค์ง ์์ ์ ์๋ค.
- ๊ณ์ธต์ ์ ๊ทผ ๋ฐฉ์ ๊ณ ๋ ค: ํธ๋ฆฌ ๊ตฌ์กฐ ์ถ์ธก(EAGLE-2 ๋๋ ์ ์ฌ ๋ฐฉ์)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์ค๊ฐ ๋ณํ ๋ ์ด์ด๋ ์ถ๊ฐ์ ์ธ ์์ง๋์ด๋ง ๋
ธ๋ ฅ์ ๊ฐ์ํ ๊ฐ์น๊ฐ ์์ ์ ์๋ค.
- ํ๋์จ์ด์ ์ค์์ฑ: ์ต์ ์ ๊ฒฐํฉ ์ ๋ต์ ํน์ GPU์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ ์ฐ์ฐ ๋น์จ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. A100์์ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด H100์ด๋ RTX 4090์ผ๋ก ์ด์ ๋์ง ์์ ์ ์๋ค.
๋ฏธํด๊ฒฐ ์ง๋ฌธ
์๊ท๋ชจ ๋ชจ๋ธ๋ก์ ํ์ฅ: ์์ํ ์ค๋ฒํค๋์ ๋น์จ์ด ๋ค๋ฅธ ์๊ท๋ชจ(7B, 13B)์์๋ ํธํ์ฑ ๋ฌธ์ ๊ฐ ์ง์๋๋๊ฐ?ํ์ฑํ ์์ํ: ๊ฐ์ค์น์ ํ์ฑํ ๋ชจ๋ ์์ํ๋ ๊ฒฝ์ฐ ํธํ์ฑ ์์์ ์ด๋ป๊ฒ ๋ณํํ๋๊ฐ?KV-์บ์ ์์ํ: ํธ๋ฆฌ ๊ฒ์ฆ์ ์ฌ์ฉํ๋ ํฌ๊ธฐ์ ๋์ฝ๋ฉ์ ๋๊ท๋ชจ ํค-๊ฐ ์บ์๋ฅผ ์์ฑํ๋ค. KV-์บ์ ์์ํ๋ฅผ ์๋ก์ด ๊ฐ์ญ์ ๋ฐ์์ํค์ง ์๊ณ ๋ค ๋ฒ์งธ ์ต์ ํ๋ก ์ถ๊ฐํ ์ ์๋๊ฐ?์๋ ๊ณต๋ ์ต์ ํ: ์๋ ์คํ ์์ด ํ๋์จ์ด ํ๋กํ์ผ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํฌ๊ธฐ์ ๋์ฝ๋ฉ ๋ณํ๊ณผ ์์ํ ๋ฐฉ์์ ์ ํ์ ์๋ํํ ์ ์๋๊ฐ?ํ์ง ์ํฅ: ๋ณธ ์ฐ๊ตฌ๋ ์๋์ ์ด์ ์ ๋ง์ถ๋ค. ํฌ๊ธฐ์ ๋์ฝ๋ฉ๊ณผ ์์ํ์ ๊ฒฐํฉ์ด ๊ฐ ๊ธฐ๋ฒ์ด ๊ฐ๋ณ์ ์ผ๋ก ์ ๋ฐํ๋ ๊ฒ ์ด์์ ์ถ๊ฐ์ ์ธ ํ์ง ์ ํ๋ฅผ ์ด๋ํ๋๊ฐ?References (1)
[1] Zhang, Y., Zhao, W., Han, X., Zhao, T., Xu, W., Cao, H., & Zhu, C. (2025). Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design. arXiv:2505.22179.