Paper ReviewAI & Machine LearningMachine/Deep Learning
Gemini 2.5 Pro's Thinking Budget: Controlling the Quality-Cost Tradeoff in Reasoning
Google's Gemini 2.5 Pro introduces a 'thinking budget' that gives users direct control over how much computation a model spends reasoning. We examine what this means for the quality-cost-latency triangle and whether user-controlled inference scaling changes the economics of AI deployment.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Most reasoning models present users with a binary choice: either the model thinks extensively (high cost, high latency, better answers) or it does not (fast, cheap, sometimes wrong). Google's Gemini 2.5 Pro technical report (Comanici et al., 2025) introduces a different framing. Rather than a toggle, users receive a dial โ a thinking budget that lets them specify, in concrete terms, how much computation the model should spend on internal reasoning before producing a response.
This is a design choice worth examining carefully, because it shifts responsibility for inference economics from the model provider to the user.
Research Landscape: The Reasoning Model Generation
The 2024-2025 period has seen a clear architectural trend: models that allocate variable compute at inference time based on problem difficulty. OpenAI's o1 and o3 series, DeepSeek-R1, and Anthropic's extended thinking in Claude all implement variations on this theme. The core insight is shared โ harder problems benefit from more internal deliberation โ but the implementations differ in a critical design dimension: who decides how much thinking happens?
In most systems, the model itself determines reasoning depth. The model reads the prompt, estimates difficulty, and allocates tokens to its chain-of-thought accordingly. This is elegant but opaque: the user cannot predict the cost of a query before it executes, and there is no mechanism to say "this problem is not worth more than $0.02 of compute."
Gemini 2.5 Pro's thinking budget makes this tradeoff explicit and user-controllable. According to the technical report, users can directly set the reasoning budget, enabling them to manage the quality-cost-latency triangle for their specific use case. A developer building a chatbot for quick factual queries might set a minimal thinking budget. A research team solving competition-level mathematics might set it to maximum.
Benchmark Context
The report positions Gemini 2.5 Pro as achieving state-of-the-art performance on coding and reasoning benchmarks. Specific results cited include a strong score on SWE-Bench Verified using a custom agent setup, first place on AIME 2025 without majority voting, and a Gold medal on IMO 2025. The model also supports processing up to 3 hours of video content, reflecting its multimodal capabilities.
Several contextual notes are important for interpreting these numbers. SWE-Bench Verified measures end-to-end software engineering ability โ given a GitHub issue, can the model produce a working patch? This benchmark figure uses a custom agent setup, meaning the raw model score may differ. The AIME result is notable specifically because it was achieved without majority voting, a technique where multiple samples are generated and the most common answer is selected. This distinction matters because majority voting is computationally expensive and can inflate apparent performance.
Critical Analysis: Claims and Evidence
<
| Claim | Source | Assessment |
|---|
| Thinking budget allows users to control quality-cost-latency tradeoff | Technical report | Supported as architectural feature; long-term user behavior data not yet available |
| SWE-Bench Verified (strong performance) | Technical report (custom agent setup) | Supported with caveat: agent scaffolding matters |
| AIME 2025 first place without majority voting | Technical report | Supported; the "without majority voting" qualifier is significant |
| IMO 2025 Gold medal | Technical report | Supported; a separate paper (arXiv:2507.15855) details the methodology |
| Thinking budget changes deployment economics | Implied | Plausible but unverified at scale |
What the Report Does Not Address
The technical report does not provide detailed ablation studies showing how performance degrades as the thinking budget decreases. This is the most important missing piece: if performance drops sharply below a certain threshold, the "dial" is effectively a binary switch with extra steps. If degradation is gradual, the feature genuinely enables fine-grained cost management.
The report also does not address how the thinking budget interacts with problem difficulty estimation. When a user sets a low budget for a genuinely hard problem, does the model fail gracefully (producing a lower-confidence answer) or fail catastrophically (producing a confidently wrong answer)?
The Design Philosophy Question
The thinking budget concept reflects a broader tension in AI system design: abstraction versus control. Most AI products abstract away inference details, presenting users with a simple input-output interface. The thinking budget breaks this abstraction deliberately, exposing an internal parameter that was previously hidden.
This has precedent in cloud computing, where users choose between instance types with different resource configurations. Most cloud users converge on a small number of configurations. Whether thinking budgets follow the same pattern โ collapsing into "fast," "balanced," and "deep" presets โ remains to be seen.
Open Questions
Degradation curve: How does performance on reasoning benchmarks change as the thinking budget decreases from maximum to minimum? Is the relationship linear, logarithmic, or step-function?User calibration: Can users accurately estimate the appropriate thinking budget for a given task? If not, does the feature create anxiety rather than control?Competitive dynamics: Will other providers adopt user-controllable reasoning budgets, or will they compete on automatic budget allocation?Benchmark inflation: As thinking models proliferate, do existing benchmarks adequately distinguish between models that reason well efficiently and models that reason well expensively?Multimodal reasoning cost: The report emphasizes multimodal capabilities including video processing. How does the thinking budget interact with multimodal inputs, where the "difficulty" of reasoning depends on modality?What This Means for Practitioners
For developers integrating LLMs into products, the thinking budget is operationally significant. It converts unpredictable inference costs into controllable ones โ a genuine improvement for production budgeting. The practical recommendation is straightforward: benchmark your specific use case at multiple budget levels to find the cost-performance knee, rather than defaulting to maximum.
For researchers, the thinking budget raises a methodological question: when reporting benchmark results for reasoning models, should the compute budget be standardized? A model achieving marginally higher accuracy at significantly greater compute cost has not clearly demonstrated superiority.
The thinking budget is not a technical novelty so much as an economic interface innovation. It makes the cost of intelligence visible and manageable โ a necessary step as reasoning models move from research demonstrations to production infrastructure.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
Gemini 2.5 Pro์ Thinking Budget: ์ถ๋ก ์์ ํ์ง-๋น์ฉ ํธ๋ ์ด๋์คํ ์ ์ด
๋๋ถ๋ถ์ ์ถ๋ก ๋ชจ๋ธ์ ์ฌ์ฉ์์๊ฒ ์ด์ง ์ ํ์ ์ ์ํ๋ค. ์ฆ, ๋ชจ๋ธ์ด ๊ด๋ฒ์ํ๊ฒ ์ฌ๊ณ ํ๊ฑฐ๋(๋์ ๋น์ฉ, ๋์ ์ง์ฐ ์๊ฐ, ๋ ๋์ ๋ต๋ณ) ๊ทธ๋ ์ง ์๊ฑฐ๋(๋น ๋ฅด๊ณ , ์ ๋ ดํ๋ฉฐ, ๋๋ก๋ ์ค๋ต)์ ๋ ๊ฐ์ง ์ ํ์ง์ด๋ค. Google์ Gemini 2.5 Pro ๊ธฐ์ ๋ณด๊ณ ์(Comanici et al., 2025)๋ ์ด์ ๋ค๋ฅธ ํ๋ ์์ ์ ์ํ๋ค. ๋จ์ํ ํ ๊ธ ์ค์์น ๋ฐฉ์์ด ์๋๋ผ, ์ฌ์ฉ์์๊ฒ ํ๋์ ๋ค์ด์ผ์ด ์ฃผ์ด์ง๋ค. ๋ฐ๋ก thinking budget์ด๋ค. ์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ๋ชจ๋ธ์ด ์๋ต์ ์์ฑํ๊ธฐ ์ ์ ๋ด๋ถ ์ถ๋ก ์ ์ผ๋ง๋ ๋ง์ ๊ณ์ฐ์ ์ฌ์ฉํด์ผ ํ๋์ง๋ฅผ ๊ตฌ์ฒด์ ์ธ ์์น๋ก ์ง์ ํ ์ ์๋ค.
์ด๋ ์ ์คํ๊ฒ ๊ฒํ ํ ๋งํ ์ค๊ณ ์ ํ์ด๋ค. ์ถ๋ก ๊ฒฝ์ ์ฑ์ ๋ํ ์ฑ
์์ ๋ชจ๋ธ ์ ๊ณต์์์ ์ฌ์ฉ์๋ก ์ด์ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฐ๊ตฌ ๋ํฅ: ์ถ๋ก ๋ชจ๋ธ์ ์ธ๋
2024~2025๋
๊ธฐ๊ฐ์๋ ๋ช
ํํ ์ํคํ
์ฒ์ ์ถ์ธ๊ฐ ๋ํ๋ฌ๋ค. ๋ฐ๋ก ๋ฌธ์ ๋์ด๋์ ๋ฐ๋ผ ์ถ๋ก ์ ๊ฐ๋ณ์ ์ธ ์ฐ์ฐ์ ํ ๋นํ๋ ๋ชจ๋ธ๋ค์ด๋ค. OpenAI์ o1 ๋ฐ o3 ์๋ฆฌ์ฆ, DeepSeek-R1, ๊ทธ๋ฆฌ๊ณ Claude์์ Anthropic์ extended thinking์ด ๋ชจ๋ ์ด ์ฃผ์ ์ ๋ณํ์ ๊ตฌํํ๊ณ ์๋ค. ํต์ฌ ํต์ฐฐ์ ๊ณตํต์ ์ด๋ค. ๋ ์ด๋ ค์ด ๋ฌธ์ ์ผ์๋ก ๋ด๋ถ์ ์ธ ์ฌ์ธต ์ฌ๊ณ ๋ก๋ถํฐ ๋ ํฐ ์ด์ ์ ์ป๋๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๊ตฌํ ๋ฐฉ์์ ์ค์ํ ์ค๊ณ ์ฐจ์์์ ์๋ก ๋ค๋ฅด๋ค. ๋ฐ๋ก ์ผ๋ง๋ ๋ง์ ์ฌ๊ณ ๊ฐ ์ด๋ฃจ์ด์ง์ง๋ฅผ ๋๊ฐ ๊ฒฐ์ ํ๋๊ฐ์ด๋ค.
๋๋ถ๋ถ์ ์์คํ
์์๋ ๋ชจ๋ธ ์์ฒด๊ฐ ์ถ๋ก ๊น์ด๋ฅผ ๊ฒฐ์ ํ๋ค. ๋ชจ๋ธ์ด ํ๋กฌํํธ๋ฅผ ์ฝ๊ณ ๋์ด๋๋ฅผ ์ถ์ ํ ๋ค์, ๊ทธ์ ๋ฐ๋ผ chain-of-thought์ ํ ํฐ์ ํ ๋นํ๋ค. ์ด๋ ์ฐ์ํ์ง๋ง ๋ถํฌ๋ช
ํ๋ค. ์ฌ์ฉ์๋ ์ฟผ๋ฆฌ๋ฅผ ์คํํ๊ธฐ ์ ์ ๋น์ฉ์ ์์ธกํ ์ ์์ผ๋ฉฐ, "์ด ๋ฌธ์ ๋ $0.02 ์ด์์ ์ฐ์ฐ ๋น์ฉ์ ์ธ ๊ฐ์น๊ฐ ์๋ค"๊ณ ์ง์ ํ ๋ฉ์ปค๋์ฆ๋ ์๋ค.
Gemini 2.5 Pro์ thinking budget์ ์ด ํธ๋ ์ด๋์คํ๋ฅผ ๋ช
์์ ์ด๊ณ ์ฌ์ฉ์๊ฐ ์ ์ด ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ๋ง๋ ๋ค. ๊ธฐ์ ๋ณด๊ณ ์์ ๋ฐ๋ฅด๋ฉด, ์ฌ์ฉ์๋ ์ถ๋ก ์์ฐ์ ์ง์ ์ค์ ํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํน์ ์ฌ์ฉ ์ฌ๋ก์ ๋ง๊ฒ ํ์ง-๋น์ฉ-์ง์ฐ ์๊ฐ ์ผ๊ฐ๊ด๊ณ๋ฅผ ๊ด๋ฆฌํ ์ ์๋ค. ๋น ๋ฅธ ์ฌ์ค ์กฐํ์ฉ ์ฑ๋ด์ ๊ตฌ์ถํ๋ ๊ฐ๋ฐ์๋ thinking budget์ ์ต์๋ก ์ค์ ํ ์ ์๋ค. ๊ฒฝ์๋ํ ์์ค์ ์ํ ๋ฌธ์ ๋ฅผ ํธ๋ ์ฐ๊ตฌํ์ ์ด๋ฅผ ์ต๋๋ก ์ค์ ํ ์ ์๋ค.
๋ฒค์น๋งํฌ ๋งฅ๋ฝ
๋ณด๊ณ ์๋ Gemini 2.5 Pro๊ฐ ์ฝ๋ฉ ๋ฐ ์ถ๋ก ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๊ณ ์ ์ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ธ์ฉ๋ ๊ฒฐ๊ณผ๋ก๋ ์ปค์คํ
์์ด์ ํธ ์ค์ ์ ์ฌ์ฉํ SWE-Bench Verified์์์ ๋์ ์ ์, ๋ค์๊ฒฐ ํฌํ ์์ด ๋ฌ์ฑํ AIME 2025 1์, ๊ทธ๋ฆฌ๊ณ IMO 2025 ๊ธ๋ฉ๋ฌ์ด ์๋ค. ๋ํ ์ด ๋ชจ๋ธ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฅ๋ ฅ์ ๋ฐ์ํ์ฌ ์ต๋ 3์๊ฐ ๋ถ๋์ ๋์์ ์ฝํ
์ธ ์ฒ๋ฆฌ๋ฅผ ์ง์ํ๋ค.
์ด ์์น๋ค์ ํด์ํ๋ ๋ฐ ์์ด ๋ช ๊ฐ์ง ๋งฅ๋ฝ์ ์ฌํญ์ด ์ค์ํ๋ค. SWE-Bench Verified๋ ์ข
๋จ ๊ฐ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ์ธก์ ํ๋ค. GitHub ์ด์๊ฐ ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ด ์๋ํ๋ ํจ์น๋ฅผ ์์ฑํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด๋ค. ์ด ๋ฒค์น๋งํฌ ์์น๋ ์ปค์คํ
์์ด์ ํธ ์ค์ ์ ์ฌ์ฉํ๋ฏ๋ก, ์์ ๋ชจ๋ธ ์ ์์๋ ๋ค๋ฅผ ์ ์๋ค. AIME ๊ฒฐ๊ณผ๋ ํนํ ๋ค์๊ฒฐ ํฌํ ์์ด ๋ฌ์ฑ๋์๋ค๋ ์ ์์ ์ฃผ๋ชฉํ ๋งํ๋ค. ๋ค์๊ฒฐ ํฌํ๋ ์ฌ๋ฌ ์ํ์ ์์ฑํ๊ณ ๊ฐ์ฅ ๋ง์ด ๋์จ ๋ต๋ณ์ ์ ํํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด ๊ตฌ๋ณ์ด ์ค์ํ ์ด์ ๋, ๋ค์๊ฒฐ ํฌํ๊ฐ ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ ๊ฒ๋ณด๊ธฐ ์ฑ๋ฅ์ ๋ถํ๋ฆด ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ์ถ์ฒ | ํ๊ฐ |
|---|
| Thinking budget์ ํตํด ์ฌ์ฉ์๊ฐ ํ์ง-๋น์ฉ-์ง์ฐ ์๊ฐ ํธ๋ ์ด๋์คํ๋ฅผ ์ ์ดํ ์ ์๋ค | ๊ธฐ์ ๋ณด๊ณ ์ | ์ํคํ
์ฒ์ ๊ธฐ๋ฅ์ผ๋ก์ ์ง์ง๋จ; ์ฅ๊ธฐ์ ์ธ ์ฌ์ฉ์ ํ๋ ๋ฐ์ดํฐ๋ ์์ง ์์ |
| SWE-Bench Verified (๋์ ์ฑ๋ฅ) | ๊ธฐ์ ๋ณด๊ณ ์ (์ปค์คํ
์์ด์ ํธ ์ค์ ) | ์ฃผ์ ์ฌํญ๊ณผ ํจ๊ป ์ง์ง๋จ: ์์ด์ ํธ ์ค์บํด๋ฉ์ด ์ค์ํจ |
| ๋ค์๊ฒฐ ํฌํ ์์ด AIME 2025 1์ | ๊ธฐ์ ๋ณด๊ณ ์ | ์ง์ง๋จ; "๋ค์๊ฒฐ ํฌํ ์์ด"๋ผ๋ ์กฐ๊ฑด์ด ์ค์ํจ |
| IMO 2025 ๊ธ๋ฉ๋ฌ | ๊ธฐ์ ๋ณด๊ณ ์ | ์ง์ง๋จ; ๋ณ๋ ๋
ผ๋ฌธ(arXiv:2507.15855)์์ ๋ฐฉ๋ฒ๋ก ์ ์์ธํ ์ค๋ช
ํจ |
| Thinking budget์ด ๋ฐฐํฌ ๊ฒฝ์ ์ฑ์ ๋ณํ์ํจ๋ค | ํจ์ถ๋จ | ๊ทธ๋ด๋ฏํ๋ ๋๊ท๋ชจ์์ ๊ฒ์ฆ๋์ง ์์ |
๋ณด๊ณ ์๊ฐ ๋ค๋ฃจ์ง ์๋ ๋ด์ฉ
๊ธฐ์ ๋ณด๊ณ ์๋ thinking budget์ด ๊ฐ์ํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ์ ํ๋๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์์ธํ ablation study๋ฅผ ์ ๊ณตํ์ง ์๋๋ค. ์ด๊ฒ์ด ๊ฐ์ฅ ์ค์ํ ๋๋ฝ ๋ถ๋ถ์ด๋ค. ๋ง์ฝ ํน์ ์๊ณ๊ฐ ์ดํ์์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ค๋ฉด, ํด๋น "๋ค์ด์ผ"์ ์ฌ์ค์ ์ถ๊ฐ ๋จ๊ณ๊ฐ ๋ถ์ ์ด์ง ์ค์์น์ ๋ถ๊ณผํ๋ค. ๋ฐ๋ฉด ์ฑ๋ฅ ์ ํ๊ฐ ์ ์ง์ ์ด๋ผ๋ฉด, ์ด ๊ธฐ๋ฅ์ ์ง์ ํ ์๋ฏธ์์ ์ธ๋ถํ๋ ๋น์ฉ ๊ด๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ณด๊ณ ์๋ ๋ํ thinking budget์ด ๋ฌธ์ ๋์ด๋ ์ถ์ ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋์ง๋ ๋ค๋ฃจ์ง ์๋๋ค. ์ฌ์ฉ์๊ฐ ์ค์ ๋ก ์ด๋ ค์ด ๋ฌธ์ ์ ๋ฎ์ budget์ ์ค์ ํ์ ๋, ๋ชจ๋ธ์ด ์ฐ์ํ๊ฒ ์คํจํ๋์ง(์ ๋ขฐ๋๊ฐ ๋ฎ์ ๋ต๋ณ์ ์์ฑํ๋์ง), ์๋๋ฉด ์น๋ช
์ ์ผ๋ก ์คํจํ๋์ง(์์ ์๊ฒ ํ๋ฆฐ ๋ต๋ณ์ ์์ฑํ๋์ง) ์ฌ๋ถ๊ฐ ๋ถ๋ถ๋ช
ํ๋ค.
์ค๊ณ ์ฒ ํ์ ๋ฌธ์
thinking budget ๊ฐ๋
์ AI ์์คํ
์ค๊ณ์์ ๋ ๋์ ๊ธด์ฅ ๊ด๊ณ๋ฅผ ๋ฐ์ํ๋ค. ๋ฐ๋ก ์ถ์ํ ๋ ์ ์ด์ ๋ฌธ์ ์ด๋ค. ๋๋ถ๋ถ์ AI ์ ํ์ ์ถ๋ก ์ธ๋ถ ์ฌํญ์ ์ถ์ํํ์ฌ ์ฌ์ฉ์์๊ฒ ๋จ์ํ ์
์ถ๋ ฅ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํ๋ค. thinking budget์ ์ด๋ฌํ ์ถ์ํ๋ฅผ ์๋์ ์ผ๋ก ๊นจ๊ณ , ์ด์ ์๋ ์จ๊ฒจ์ ธ ์๋ ๋ด๋ถ ํ๋ผ๋ฏธํฐ๋ฅผ ๋
ธ์ถํ๋ค.
์ด๋ ํด๋ผ์ฐ๋ ์ปดํจํ
์์ ์ ๋ก๊ฐ ์๋ค. ํด๋ผ์ฐ๋ ์ปดํจํ
์์ ์ฌ์ฉ์๋ ์๋ก ๋ค๋ฅธ ๋ฆฌ์์ค ๊ตฌ์ฑ์ ๊ฐ์ง ์ธ์คํด์ค ์ ํ ์ค์์ ์ ํํ๋ค. ๋๋ถ๋ถ์ ํด๋ผ์ฐ๋ ์ฌ์ฉ์๋ ์์์ ๊ตฌ์ฑ์ผ๋ก ์๋ ดํ๋ ๊ฒฝํฅ์ด ์๋ค. thinking budget๋ ๋์ผํ ํจํด์ ๋ฐ๋ฅผ์ง โ ์ฆ "๋น ๋ฆ," "๊ท ํ," "์ฌ์ธต"๊ณผ ๊ฐ์ ํ๋ฆฌ์
์ผ๋ก ์๋ ด๋ ์ง โ ๋ ์์ง ์ง์ผ๋ด์ผ ํ๋ค.
๋ฏธํด๊ฒฐ ์ง๋ฌธ๋ค
์ฑ๋ฅ ์ ํ ๊ณก์ : reasoning benchmark์์์ ์ฑ๋ฅ์ thinking budget์ด ์ต๋์์ ์ต์๋ก ๊ฐ์ํจ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ณํ๋๊ฐ? ๊ทธ ๊ด๊ณ๋ ์ ํ์ธ๊ฐ, ๋ก๊ทธํจ์์ ์ธ๊ฐ, ์๋๋ฉด ๊ณ๋จ ํจ์์ ์ธ๊ฐ?์ฌ์ฉ์ ๋ณด์ : ์ฌ์ฉ์๋ ์ฃผ์ด์ง ์์
์ ์ ํฉํ thinking budget์ ์ ํํ๊ฒ ์ถ์ ํ ์ ์๋๊ฐ? ๊ทธ๋ ์ง ์๋ค๋ฉด, ์ด ๊ธฐ๋ฅ์ด ์ ์ด๊ฐ ๋์ ๋ถ์๊ฐ์ ์ ๋ฐํ๋๊ฐ?๊ฒฝ์ ์ญํ: ๋ค๋ฅธ ์๋น์ค ์ ๊ณต์๋ค๋ ์ฌ์ฉ์๊ฐ ์ ์ด ๊ฐ๋ฅํ reasoning budget์ ์ฑํํ ๊ฒ์ธ๊ฐ, ์๋๋ฉด ์๋ budget ํ ๋น์ผ๋ก ๊ฒฝ์ํ ๊ฒ์ธ๊ฐ?Benchmark ์ธํ๋ ์ด์
: thinking ๋ชจ๋ธ์ด ํ์ฐ๋จ์ ๋ฐ๋ผ, ๊ธฐ์กด benchmark๋ ํจ์จ์ ์ผ๋ก ์ ์ถ๋ก ํ๋ ๋ชจ๋ธ๊ณผ ๋น์ฉ์ ๋ง์ด ๋ค์ฌ ์ ์ถ๋ก ํ๋ ๋ชจ๋ธ์ ์ ์ ํ ๊ตฌ๋ณํ๋๊ฐ?๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋น์ฉ: ๋ณด๊ณ ์๋ ๋น๋์ค ์ฒ๋ฆฌ๋ฅผ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ ์ญ๋์ ๊ฐ์กฐํ๋ค. thinking budget์ ์ถ๋ก ์ "๋์ด๋"๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋๊ฐ?์ค๋ฌด์์๊ฒ ์ฃผ๋ ์์ฌ์
LLM์ ์ ํ์ ํตํฉํ๋ ๊ฐ๋ฐ์์๊ฒ thinking budget์ ์ด์ ์ธก๋ฉด์์ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. ์ด๋ ์์ธก ๋ถ๊ฐ๋ฅํ ์ถ๋ก ๋น์ฉ์ ์ ์ด ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์ ํํ๋ฉฐ, ์ด๋ ํ๋ก๋์
์์ฐ ๊ด๋ฆฌ์ ์์ด ์ค์ง์ ์ธ ๊ฐ์ ์ด๋ค. ์ค์ฉ์ ์ธ ๊ถ๊ณ ์ฌํญ์ ๋ช
ํํ๋ค. ์ต๋๊ฐ์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ค์ ํ๊ธฐ๋ณด๋ค๋, ์ฌ๋ฌ budget ์์ค์์ ์์ ์ ํน์ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๋ฒค์น๋งํนํ์ฌ ๋น์ฉ-์ฑ๋ฅ ๋ณ๊ณก์ ์ ์ฐพ์์ผ ํ๋ค.
์ฐ๊ตฌ์์๊ฒ ์์ด thinking budget์ ๋ฐฉ๋ฒ๋ก ์ ์ง๋ฌธ์ ์ ๊ธฐํ๋ค. reasoning ๋ชจ๋ธ์ benchmark ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ ๋, ์ปดํจํ
budget์ ํ์คํํด์ผ ํ๋๊ฐ? ํ์ ํ ๋์ ์ปดํจํ
๋น์ฉ์ผ๋ก ์ฝ๊ฐ ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ๋ชจ๋ธ์ด ์ฐ์์ฑ์ ๋ช
ํํ ์
์ฆํ๋ค๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค.
thinking budget์ ๊ธฐ์ ์ ์ฐธ์ ํจ์ด๋ผ๊ธฐ๋ณด๋ค ๊ฒฝ์ ์ ์ธํฐํ์ด์ค ํ์ ์ ๊ฐ๊น๋ค. ์ด๋ ์ง๋ฅ์ ๋น์ฉ์ ๊ฐ์์ ์ด๊ณ ๊ด๋ฆฌ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๋ฉฐ, ์ด๋ reasoning ๋ชจ๋ธ์ด ์ฐ๊ตฌ ์์ฐ์์ ํ๋ก๋์
์ธํ๋ผ๋ก ์ดํํจ์ ๋ฐ๋ผ ํ์ฐ์ ์ธ ๋จ๊ณ์ด๋ค.
References (3)
[1] Comanici, G., Bieber, E., Schaekermann, M. et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.
Setlur, Yang, Snell (2025). e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs.
Wilhelm, P., Wittkopp, T., & Kao, O. (2025). Beyond Test-Time Compute Strategies: Advocating Energy-per-Token in LLM Inference. Proceedings of the 5th Workshop on Machine Learning and Systems, 208-215.