Field MapAI & Machine LearningSystematic Review
LLMOrbit: Mapping Six Years of Language Model Evolution from Scaling Walls to Agentic Systems
Where did we come from, and where are we going? LLMOrbit maps the full landscape of large language models from 2019 to 2025 as a circular taxonomyโrevealing that the field has hit scaling walls and is pivoting toward agentic architectures as the next growth vector.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Where does the field of large language models stand as of 2025? The pace of development has been so rapid that even active researchers struggle to maintain a coherent map of the landscape. New models, architectures, and training techniques appear weekly, each claiming improvement over predecessors whose names are barely familiar. The result is a field that is simultaneously advancing quickly and losing its collective sense of direction.
Patro & Agneeswaran's LLMOrbit addresses this disorientation with a circular taxonomyโa structured map of the LLM landscape from the introduction of GPT-2 in 2019 through the agentic systems of 2025. The circular structure is deliberate: rather than implying a linear progression from worse to better, it captures the cyclic and branching nature of LLM development, where ideas recur in new forms and seemingly abandoned approaches resurface with modern twists.
The Scaling Era (2019โ2023)
The first phase of LLM development was defined by a simple hypothesis: bigger models trained on more data produce better results. This hypothesis, formalized in scaling laws by recent studies and refined by Hoffmann et al. (2022, the "Chinchilla" paper), drove a parameter arms race from GPT-2's 1.5 billion parameters (2019) to GPT-4's rumored trillions.
The scaling era produced genuine and substantial improvements. Capabilities that were impossible at smaller scalesโfew-shot learning, complex instruction following, extended coherent generationโemerged reliably as models grew. The scaling laws provided a remarkably accurate predictive framework: given a compute budget, you could estimate the optimal model size and training data quantity.
But the scaling era also encountered scaling wallsโdiminishing returns that made continued scaling increasingly expensive relative to the improvement obtained:
- Data walls: High-quality training data is finite. Models exhausted the supply of carefully curated web text and increasingly relied on synthetic or lower-quality data, with corresponding quality degradation.
- Compute walls: Training the largest models requires clusters of thousands of GPUs running for monthsโan investment measured in hundreds of millions of dollars that only a handful of organizations can afford.
- Capability walls: Certain abilitiesโreliable mathematical reasoning, consistent factual accuracy, long-horizon planningโimproved slowly with scale, suggesting that more parameters alone cannot unlock them.
The Reasoning Turn (2024โ2025)
The response to scaling walls was not to abandon scale but to redirect investment toward how models learn rather than how much they learn. The reasoning turn, catalyzed by DeepSeek R1 and reinforced by subsequent work, demonstrated that training methodsโparticularly reinforcement learning applied to reasoning processesโcould unlock capabilities that pure scaling had not.
LLMOrbit identifies several key developments in this phase:
- Chain-of-thought training: Models trained to show their reasoning step by step, enabling verification and improvement of the reasoning process itself
- Process reward models: Rewarding intermediate reasoning steps rather than only final answers, providing denser learning signals
- Test-time compute scaling: Allocating more computation at inference time for harder problems, trading latency for accuracy in a principled way
- Specialized reasoning models: Domain-specific models (legal, medical, mathematical) that reason within professional frameworks
The Multimodal Expansion
Parallel to the reasoning turn, the multimodal expansion integrated vision, audio, and structured data with language understanding. LLMOrbit maps the progression from CLIP-style contrastive alignment (connecting images and text in a shared embedding space) through instruction-tuned multimodal models (LLaVA, GPT-4V) to domain-specific multimodal experts (medical VLMs, remote sensing VLMs).
The taxonomy reveals that multimodality is not a single capability but a spectrum:
- Perception: Understanding the content of non-text inputs (what does this image show?)
- Grounding: Connecting language references to specific regions of non-text inputs (where in this image is the cat?)
- Reasoning: Drawing conclusions that require integrating information across modalities (does this X-ray show evidence consistent with the patient's reported symptoms?)
- Generation: Producing non-text outputs guided by language (generate an image of a sunset over mountains)
Current models achieve perception and basic grounding reliably; cross-modal reasoning and controlled generation remain active research frontiers.
The Agentic Pivot
The most recent phaseโand the one LLMOrbit identifies as the current trajectoryโis the pivot from models as passive responders to models as autonomous agents. This shift redefines the LLM from a text-in-text-out function to a cognitive controller that plans, uses tools, maintains memory, interacts with environments, and coordinates with other agents.
LLMOrbit's taxonomy of agentic capabilities includes:
- Tool use: Calling external APIs, executing code, querying databases
- Planning: Decomposing complex goals into executable sub-steps
- Memory: Maintaining information across interactions, building persistent knowledge
- Self-reflection: Evaluating own outputs and identifying errors
- Multi-agent coordination: Collaborating with other AI agents toward shared goals
The agentic pivot represents a qualitative shift in what LLMs
are. A language model is a statistical tool. An agent is an autonomous system with goals, plans, and the ability to act on the world. The safety, alignment, and governance implications of this shift are substantialโand, as LLMOrbit notes, the governance frameworks have not kept pace with the capability development.
The Map, Not the Territory
LLMOrbit is explicitly a taxonomyโa map of the landscape, not a prediction of where it will go next. The authors are careful to note that circular taxonomies reveal patterns but do not determine trajectories. The field may continue on its current agentic path, or it may encounter new walls that redirect development in unexpected directions.
What the taxonomy does provide is orientation. For researchers entering the field, it answers the question "What should I know?" For practitioners evaluating which technologies to adopt, it answers "Where does this fit in the broader landscape?" For policymakers attempting to regulate AI development, it answers "What kinds of systems exist and what can they do?"
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Scaling laws accurately predicted early LLM improvement | Kaplan et al. and Hoffmann et al. validated on multiple model families | โ
Well-established |
| Scaling has hit diminishing returns for certain capabilities | Data, compute, and capability walls documented across multiple efforts | โ
Supported |
| RL-based reasoning training outperforms pure scaling for reasoning | DeepSeek R1, Hou et al. demonstrate reasoning gains from RL | โ
Supported |
| The agentic pivot is the dominant current research direction | Publication volume, industry investment, and benchmark development all shifted toward agents | โ
Observed |
| A single taxonomy can capture the full LLM landscape | Inherent simplification; important nuances are necessarily lost | โ ๏ธ Useful simplification |
Open Questions
Post-Transformer architectures: LLMOrbit is implicitly Transformer-centric. Will alternative architectures (state space models, linear attention, hybrid designs) create a parallel taxonomy branch?Convergence or divergence?: Are LLMs converging toward a single dominant architecture, or is the field diverging into specialized branches (reasoning models, multimodal models, agent models) that share less and less common ground?The next wall: What will be the scaling wall for agentic AI? Memory management? Multi-agent coordination failures? Safety and alignment limitations? Identifying the next constraint before hitting it would enable proactive research investment.Evaluation evolution: As LLMs evolve from text generators to autonomous agents, evaluation must evolve correspondingly. What benchmarks will define the next generation of LLM capability assessment?The consolidation question: Will the LLM landscape consolidate around a few dominant model families (as happened with search engines and social networks), or will it remain fragmented with many viable approaches?What This Means for Your Research
For any researcher working with or on LLMs, LLMOrbit provides essential context. Understanding where the field has beenโand why it has moved in the directions it hasโis prerequisite for identifying where it is going and where the most impactful research opportunities lie.
The key strategic insight from the taxonomy: the era of winning through scale alone is closing. The open frontiers are reasoning quality, domain specialization, multimodal integration, and agentic capability. Researchers who invest in these directions are better positioned than those who continue to pursue raw scaling.
For the broader AI community, LLMOrbit serves as a reminder that rapid progress can obscure fundamental questions. We have built systems of remarkable capabilityโbut the question of what these systems are, how they should be governed, and what role they should play in human society remains as open as it was when GPT-2 was released seven years ago.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
LLMOrbit: ์ค์ผ์ผ๋ง ํ๊ณ์์ ์์ด์ ํธ ์์คํ
๊น์ง, 6๋
๊ฐ์ ์ธ์ด ๋ชจ๋ธ ์งํ ๋งคํ
2025๋
ํ์ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ถ์ผ๋ ์ด๋์ ์ ์๋๊ฐ? ๋ฐ์ ์๋๊ฐ ๋๋ฌด ๋น ๋ฅธ ๋๋จธ์ง, ํ์ญ ์ฐ๊ตฌ์๋ค์กฐ์ฐจ ์ด ๋ถ์ผ์ ์งํ์ ์ผ๊ด๋๊ฒ ํ์
ํ๊ธฐ ์ด๋ ต๋ค. ์๋ก์ด ๋ชจ๋ธ, ์ํคํ
์ฒ, ํ์ต ๊ธฐ๋ฒ์ด ๋งค์ฃผ ๋ฑ์ฅํ๋ฉฐ, ๊ฐ๊ฐ์ ์ด๋ฆ์กฐ์ฐจ ๋ฏ์ ์ ์์ ๊ฐ์ ํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ด ๋ถ์ผ๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ ๋์์ ์ง๋จ์ ๋ฐฉํฅ ๊ฐ๊ฐ์ ์์ด๊ฐ๊ณ ์๋ค.
Patro & Agneeswaran์ LLMOrbit์ ์ด๋ฌํ ๋ฐฉํฅ ์์ค์ ์ํ ๋ถ๋ฅ ์ฒด๊ณ(circular taxonomy)๋ก ๋์ํ๋ค. ์ด๋ 2019๋
GPT-2์ ๋ฑ์ฅ๋ถํฐ 2025๋
์ ์์ด์ ํธ ์์คํ
์ ์ด๋ฅด๊ธฐ๊น์ง LLM ์งํ์ ๊ตฌ์กฐ์ ์ผ๋ก ๋งคํํ ๊ฒ์ด๋ค. ์ํ ๊ตฌ์กฐ๋ ์๋์ ์ธ ์ ํ์ด๋ค. ์ด๋ฑํ ๊ฒ์์ ์ฐ์ํ ๊ฒ์ผ๋ก์ ์ ํ์ ๋ฐ์ ์ ์์ํ๋ ๋์ , ์์ด๋์ด๊ฐ ์๋ก์ด ํํ๋ก ๋ฐ๋ณต๋๊ณ ํ๋ ํ๊ธฐ๋ ๋ฏ ๋ณด์ด๋ ์ ๊ทผ๋ฒ์ด ํ๋์ ๋ณํ์ผ๋ก ์ฌ๋ฑ์ฅํ๋ LLM ๋ฐ์ ์ ์ํ์ ยท๋ถ๊ธฐ์ ํน์ฑ์ ํฌ์ฐฉํ๋ค.
์ค์ผ์ผ๋ง ์๋ (2019โ2023)
LLM ๋ฐ์ ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ๋จ์ํ ๊ฐ์ค๋ก ์ ์๋์๋ค. ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ ํฐ ๋ชจ๋ธ์ด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค๋ ๊ฒ์ด๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์ํด ๊ณต์ํ๋ ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law)๊ณผ Hoffmann et al. (2022, "Chinchilla" ๋
ผ๋ฌธ)์ ์ํด ์ ์ ๋ ์ด ๊ฐ์ค์, GPT-2์ 15์ต ํ๋ผ๋ฏธํฐ(2019๋
)์์ GPT-4์ ์์กฐ์ ๋ฌํ๋ ๊ฒ์ผ๋ก ์๋ ค์ง ํ๋ผ๋ฏธํฐ๊น์ง ํ๋ผ๋ฏธํฐ ๊ตฐ๋น ๊ฒฝ์์ ์ด๋์๋ค.
์ค์ผ์ผ๋ง ์๋๋ ์ค์ง์ ์ด๊ณ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์๋ค. ์๊ท๋ชจ ๋ชจ๋ธ์์๋ ๋ถ๊ฐ๋ฅํ๋ ๋ฅ๋ ฅ๋คโํจ์ท ํ์ต(few-shot learning), ๋ณต์กํ ์ง์ ์ํ, ๊ธธ๊ณ ์ผ๊ด๋ ํ
์คํธ ์์ฑโ์ด ๋ชจ๋ธ์ด ์ปค์ง์๋ก ์์ ์ ์ผ๋ก ๋ํ๋ฌ๋ค. ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋๋๋๋ก ์ ํํ ์์ธก ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค. ์ฃผ์ด์ง ์ปดํจํ
์์ฐ์ผ๋ก ์ต์ ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ์์ ์ถ์ ํ ์ ์์๋ค.
๊ทธ๋ฌ๋ ์ค์ผ์ผ๋ง ์๋๋ ๋ํ ์ค์ผ์ผ๋ง ํ๊ณ(scaling walls)์ ๋ง์ฃผ์ณค๋ค. ์ง์์ ์ธ ์ค์ผ์ผ ํ๋๋ฅผ ํตํด ์ป์ ์ ์๋ ๊ฐ์ ์ ๋นํด ๋น์ฉ์ด ์ ์ ๋ ์ปค์ง๋ ์ํ ์ฒด๊ฐ ํ์์ด ๋ํ๋ ๊ฒ์ด๋ค.
- ๋ฐ์ดํฐ ํ๊ณ: ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ๋ ์ ํํ๋ค. ๋ชจ๋ธ๋ค์ ์์ ๋ ์น ํ
์คํธ ๊ณต๊ธ์ ์์งํ๊ณ ์ ์ ๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ ํ์ง ๋ฐ์ดํฐ์ ์์กดํ๊ฒ ๋์์ผ๋ฉฐ, ๊ทธ์ ์์ํ๋ ํ์ง ์ ํ๊ฐ ๋ฐ์ํ๋ค.
- ์ปดํจํ
ํ๊ณ: ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค๋ฉด ์์ฒ ๊ฐ์ GPU ํด๋ฌ์คํฐ๋ฅผ ์๊ฐ์๊ฐ ์ด์ํด์ผ ํ๋ค. ์ด๋ ์์ต ๋ฌ๋ฌ์ ๋ฌํ๋ ํฌ์๋ก, ์์์ ์กฐ์ง๋ง์ด ๊ฐ๋นํ ์ ์๋ค.
- ๋ฅ๋ ฅ ํ๊ณ: ์ ๋ขฐํ ์ ์๋ ์ํ์ ์ถ๋ก , ์ผ๊ด๋ ์ฌ์ค ์ ํ์ฑ, ์ฅ๊ธฐ ๊ณํ ์๋ฆฝ ๋ฑ์ ํน์ ๋ฅ๋ ฅ๋ค์ ๊ท๋ชจ๊ฐ ์ปค์ ธ๋ ๋๋๊ฒ ํฅ์๋์์ผ๋ฉฐ, ์ด๋ ํ๋ผ๋ฏธํฐ ์๋ง์ผ๋ก๋ ์ด๋ฌํ ๋ฅ๋ ฅ์ ๋์ด๋ผ ์ ์์์ ์์ฌํ๋ค.
์ถ๋ก ์ ํ (2024โ2025)
์ค์ผ์ผ๋ง ํ๊ณ์ ๋ํ ๋์์ ๊ท๋ชจ ํ๋๋ฅผ ํฌ๊ธฐํ๋ ๊ฒ์ด ์๋๋ผ, ์ผ๋ง๋ ๋ง์ด ํ์ตํ๋๋๋ณด๋ค ์ด๋ป๊ฒ ํ์ตํ๋๋๋ก ํฌ์๋ฅผ ์ ํํ๋ ๊ฒ์ด์๋ค. DeepSeek R1์ ์ด๋งค๋ก ์ดํ ์ฐ๊ตฌ๋ค์ ์ํด ๊ฐํ๋ ์ถ๋ก ์ ํ์, ์์ํ ์ค์ผ์ผ๋ง์ผ๋ก๋ ์ด์ด์ ํ์ง ๋ชปํ๋ ๋ฅ๋ ฅ๋ค์ ํ์ต ๋ฐฉ๋ฒโํนํ ์ถ๋ก ๊ณผ์ ์ ์ ์ฉ๋ ๊ฐํ ํ์ตโ์ด ๋์ด๋ผ ์ ์์์ ์
์ฆํ๋ค.
LLMOrbit์ ์ด ๋จ๊ณ์์์ ๋ช ๊ฐ์ง ํต์ฌ ๋ฐ์ ์ ์๋ณํ๋ค.
- ์ฌ๊ณ ์ฐ์(chain-of-thought) ํ์ต: ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ๋ณด์ฌ์ฃผ๋๋ก ํ์ต๋ ๋ชจ๋ธ๋ก, ์ถ๋ก ๊ณผ์ ์์ฒด์ ๊ฒ์ฆ๊ณผ ๊ฐ์ ์ด ๊ฐ๋ฅํ๋ค.
- ๊ณผ์ ๋ณด์ ๋ชจ๋ธ(process reward model): ์ต์ข
๋ต๋ณ๋ง์ด ์๋ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ์ ๋ณด์์ ๋ถ์ฌํจ์ผ๋ก์จ, ๋ ๋ฐ๋ ์๋ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๋ค.
- ํ
์คํธ ์๊ฐ ์ปดํจํ
์ค์ผ์ผ๋ง(test-time compute scaling): ๋ ์ด๋ ค์ด ๋ฌธ์ ์ ๋ํด ์ถ๋ก ์์ ์ ๋ ๋ง์ ์ฐ์ฐ์ ํ ๋นํ์ฌ, ์์น์ ์ธ ๋ฐฉ์์ผ๋ก ์ง์ฐ ์๊ฐ๊ณผ ์ ํ๋๋ฅผ ๊ตํํ๋ค.
- ์ ๋ฌธํ๋ ์ถ๋ก ๋ชจ๋ธ: ๋ฒ๋ฅ , ์๋ฃ, ์ํ ๋ฑ ์ ๋ฌธ์ ํ๋ ์์ํฌ ๋ด์์ ์ถ๋ก ํ๋ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ด๋ค.
๋ฉํฐ๋ชจ๋ฌ ํ์ฅ
์ถ๋ก ์ ํ๊ณผ ๋ค์ค ๋ชจ๋ฌ ํ์ฅ
์ถ๋ก ์ ํ๊ณผ ๋ณํํ์ฌ, ๋ค์ค ๋ชจ๋ฌ ํ์ฅ์ ์๊ฐ, ์ค๋์ค, ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ธ์ด ์ดํด์ ํตํฉํ์๋ค. LLMOrbit์ CLIP ๋ฐฉ์์ ๋์กฐ์ ์ ๋ ฌ(์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์ฐ๊ฒฐ)์์ ์์ํ์ฌ ๋ช
๋ น์ด ํ๋๋ ๋ค์ค ๋ชจ๋ฌ ๋ชจ๋ธ(LLaVA, GPT-4V)์ ๊ฑฐ์ณ ๋๋ฉ์ธ ํนํ ๋ค์ค ๋ชจ๋ฌ ์ ๋ฌธ ๋ชจ๋ธ(์๋ฃ VLM, ์๊ฒฉ ํ์ฌ VLM)๋ก ์ด์ด์ง๋ ๋ฐ์ ๊ณผ์ ์ ์ง๋ํํ๋ค.
์ด ๋ถ๋ฅ ์ฒด๊ณ๋ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ๋จ์ผํ ๋ฅ๋ ฅ์ด ์๋๋ผ ํ๋์ ์คํํธ๋ผ์์ ๋๋ฌ๋ธ๋ค:
- ์ง๊ฐ(Perception): ๋นํ
์คํธ ์
๋ ฅ์ ๋ด์ฉ ์ดํด (์ด ์ด๋ฏธ์ง๋ ๋ฌด์์ ๋ณด์ฌ ์ฃผ๋๊ฐ?)
- ์ ์ง(Grounding): ์ธ์ด์ ์ฐธ์กฐ๋ฅผ ๋นํ
์คํธ ์
๋ ฅ์ ํน์ ์์ญ๊ณผ ์ฐ๊ฒฐ (์ด ์ด๋ฏธ์ง์์ ๊ณ ์์ด๋ ์ด๋์ ์๋๊ฐ?)
- ์ถ๋ก (Reasoning): ์ฌ๋ฌ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ฑธ์น ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๊ฒฐ๋ก ๋์ถ (์ด X-ray ์ฌ์ง์ ํ์๊ฐ ๋ณด๊ณ ํ ์ฆ์๊ณผ ์ผ์นํ๋ ์๊ฒฌ์ ๋ณด์ด๋๊ฐ?)
- ์์ฑ(Generation): ์ธ์ด์ ์๋ด๋ฅผ ๋ฐ์ ๋นํ
์คํธ ์ถ๋ ฅ๋ฌผ ์์ฑ (์ฐ ๋๋จธ ์ผ๋ชฐ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ผ)
ํ์ฌ ๋ชจ๋ธ๋ค์ ์ง๊ฐ๊ณผ ๊ธฐ๋ณธ์ ์ธ ์ ์ง๋ ์์ ์ ์ผ๋ก ์ํํ๋ค; ๊ต์ฐจ ๋ชจ๋ฌ ์ถ๋ก ๊ณผ ์ ์ด๋ ์์ฑ์ ์ฌ์ ํ ํ๋ฐํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
์์ด์ ํฑ ์ ํ
๊ฐ์ฅ ์ต๊ทผ์ ๋จ๊ณโ๊ทธ๋ฆฌ๊ณ LLMOrbit์ด ํ์ฌ์ ๊ถค์ ์ผ๋ก ์๋ณํ๋ ๋จ๊ณโ๋ ๋ชจ๋ธ์ด ์๋์ ์๋ต์์์ ์์จ์ ์์ด์ ํธ๋ก ์ ํํ๋ ๊ฒ์ด๋ค. ์ด ์ ํ์ LLM์ ํ
์คํธ ์
์ถ๋ ฅ ํจ์์์ ๊ณํ์ ์๋ฆฝํ๊ณ , ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ธฐ์ต์ ์ ์งํ๊ณ , ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ, ๋ค๋ฅธ ์์ด์ ํธ์ ํ๋ ฅํ๋ ์ธ์ง์ ์ ์ด์๋ก ์ฌ์ ์ํ๋ค.
LLMOrbit์ ์์ด์ ํฑ ์ญ๋ ๋ถ๋ฅ ์ฒด๊ณ๋ ๋ค์์ ํฌํจํ๋ค:
- ๋๊ตฌ ์ฌ์ฉ(Tool use): ์ธ๋ถ API ํธ์ถ, ์ฝ๋ ์คํ, ๋ฐ์ดํฐ๋ฒ ์ด์ค ์กฐํ
- ๊ณํ(Planning): ๋ณต์กํ ๋ชฉํ๋ฅผ ์คํ ๊ฐ๋ฅํ ํ์ ๋จ๊ณ๋ก ๋ถํด
- ๊ธฐ์ต(Memory): ์ํธ์์ฉ ์ ๋ฐ์ ๊ฑธ์ณ ์ ๋ณด ์ ์ง, ์ง์์ ์ง์ ๊ตฌ์ถ
- ์๊ธฐ ์ฑ์ฐฐ(Self-reflection): ์์ฒด ์ถ๋ ฅ๋ฌผ ํ๊ฐ ๋ฐ ์ค๋ฅ ์๋ณ
- ๋ค์ค ์์ด์ ํธ ์กฐ์จ(Multi-agent coordination): ๊ณต์ ๋ชฉํ๋ฅผ ํฅํ ๋ค๋ฅธ AI ์์ด์ ํธ์์ ํ๋ ฅ
์์ด์ ํฑ ์ ํ์ LLM์ด
๋ฌด์์ธ๊ฐ์ ๋ํ ์ง์ ๋ณํ๋ฅผ ์๋ฏธํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ํต๊ณ์ ๋๊ตฌ์ด๋ค. ์์ด์ ํธ๋ ๋ชฉํ์ ๊ณํ์ ๊ฐ์ง๋ฉฐ ์ธ๊ณ์ ํ๋์ ๊ฐํ ์ ์๋ ์์จ ์์คํ
์ด๋ค. ์ด๋ฌํ ์ ํ์ด ๊ฐ์ ธ์ค๋ ์์ ์ฑ, ์ ๋ ฌ, ๊ฑฐ๋ฒ๋์ค ์ธก๋ฉด์ ํจ์๋ ์๋นํ๋คโ๊ทธ๋ฆฌ๊ณ LLMOrbit์ด ์ง์ ํ๋ฏ์ด, ๊ฑฐ๋ฒ๋์ค ํ๋ ์์ํฌ๋ ์ญ๋ ๊ฐ๋ฐ ์๋๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๊ณ ์๋ค.
์ง๋์ด์ง ์ํ ๊ฐ ์๋๋ค
LLMOrbit์ ๋ช
์์ ์ผ๋ก ๋ถ๋ฅ ์ฒด๊ณ, ์ฆ ์งํ์ ์ง๋์ด๋ฉฐ ๋ค์ ํ์ ์ง์ ๋ํ ์์ธก์ด ์๋๋ค. ์ ์๋ค์ ์ํ์ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ ํจํด์ ๋๋ฌ๋ด์ง๋ง ๊ถค์ ์ ๊ฒฐ์ ํ์ง๋ ์๋๋ค๋ ์ ์ ์ฃผ์ ๊น๊ฒ ์ธ๊ธํ๋ค. ์ด ๋ถ์ผ๋ ํ์ฌ์ ์์ด์ ํฑ ๊ฒฝ๋ก๋ฅผ ๊ณ์ ๊ฑธ์ ์๋ ์๊ณ , ์์์น ๋ชปํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ์ ์ ํ์ํค๋ ์๋ก์ด ์ฅ๋ฒฝ์ ๋ถ๋ชํ ์๋ ์๋ค.
๋ถ๋ฅ ์ฒด๊ณ๊ฐ ์ ๊ณตํ๋ ๊ฒ์ ๋ฐฉํฅ ์ค์ ์ด๋ค. ์ด ๋ถ์ผ์ ์
๋ฌธํ๋ ์ฐ๊ตฌ์๋ค์๊ฒ๋ "๋ฌด์์ ์์์ผ ํ๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ค. ์ด๋ค ๊ธฐ์ ์ ์ฑํํ ์ง ํ๊ฐํ๋ ์ค๋ฌด์๋ค์๊ฒ๋ "์ด๊ฒ์ ๋ ๋์ ์งํ์์ ์ด๋์ ์์นํ๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ค. AI ๊ฐ๋ฐ์ ๊ท์ ํ๋ ค๋ ์ ์ฑ
์
์์๋ค์๊ฒ๋ "์ด๋ค ์ข
๋ฅ์ ์์คํ
์ด ์กด์ฌํ๋ฉฐ ๋ฌด์์ ํ ์ ์๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ๊ฒฐ |
|---|
| ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์ด๊ธฐ LLM ๊ฐ์ ์ ์ ํํ ์์ธกํ์๋ค | Kaplan et al.๊ณผ Hoffmann et al.์ด ์ฌ๋ฌ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ์์ ๊ฒ์ฆ | โ
์ถฉ๋ถํ ํ๋ฆฝ๋จ |
| ํน์ ์ญ๋์ ๋ํ ์ค์ผ์ผ๋ง์ ์ํ ์ฒด๊ฐ์ ๋๋ฌํ์๋ค | ๋ฐ์ดํฐ, ์ปดํจํ
, ์ญ๋ ํ๊ณ๊ฐ ์ฌ๋ฌ ์ฐ๊ตฌ์์ ๋ฌธ์ํ๋จ | โ
์ง์ง๋จ |
| RL ๊ธฐ๋ฐ ์ถ๋ก ํ๋ จ์ด ์ถ๋ก ์์ ์์ ์ค์ผ์ผ๋ง์ ๋ฅ๊ฐํ๋ค | DeepSeek R1, Hou et al.์ด RL์ ํตํ ์ถ๋ก ํฅ์์ ์ฆ๋ช
| โ
์ง์ง๋จ |
| ์์ด์ ํฑ ์ ํ์ด ํ์ฌ์ ์ง๋ฐฐ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ด๋ค | ์ถํ ๊ท๋ชจ, ์ฐ์
ํฌ์, ๋ฒค์น๋งํฌ ๊ฐ๋ฐ ๋ชจ๋ ์์ด์ ํธ ๋ฐฉํฅ์ผ๋ก ์ด๋ | โ
๊ด์ฐฐ๋จ |
| ๋จ์ผ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ LLM ์ ์ฒด ์งํ์ ํฌ์ฐฉํ ์ ์๋ค | ๋ณธ์ง์ ๋จ์ํ; ์ค์ํ ๋์์ค๊ฐ ํ์ฐ์ ์ผ๋ก ์์ค๋จ | โ ๏ธ ์ ์ฉํ ๋จ์ํ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
ํฌ์คํธ-Transformer ์ํคํ
์ฒ: LLMOrbit๋ ์๋ฌต์ ์ผ๋ก Transformer ์ค์ฌ์ ์ด๋ค. ๋์์ ์ํคํ
์ฒ(์ํ ๊ณต๊ฐ ๋ชจ๋ธ, ์ ํ ์ดํ
์
, ํ์ด๋ธ๋ฆฌ๋ ์ค๊ณ)๊ฐ ๋ณ๋ ฌ์ ์ธ ๋ถ๋ฅ ์ฒด๊ณ ๋ถ๊ธฐ๋ฅผ ๋ง๋ค์ด๋ผ ๊ฒ์ธ๊ฐ?์๋ ด์ธ๊ฐ ๋ถ๊ธฐ์ธ๊ฐ?: LLM๋ค์ด ๋จ์ผ ์ง๋ฐฐ์ ์ํคํ
์ฒ๋ก ์๋ ดํ๊ณ ์๋๊ฐ, ์๋๋ฉด ์ ์ ๊ณตํต์ ์ด ์ค์ด๋๋ ํนํ๋ ๋ถ๊ธฐ๋ค(์ถ๋ก ๋ชจ๋ธ, ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ, ์์ด์ ํธ ๋ชจ๋ธ)๋ก ๋ถ๊ธฐํ๊ณ ์๋๊ฐ?๋ค์ ๋ฒฝ: ์์ด์ ํฑ AI์ ์์ด์ ์ค์ผ์ผ๋ง ๋ฒฝ์ ๋ฌด์์ด ๋ ๊ฒ์ธ๊ฐ? ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ธ๊ฐ? ๋ฉํฐ ์์ด์ ํธ ์กฐ์จ ์คํจ์ธ๊ฐ? ์์ ์ฑ ๋ฐ ์ ๋ ฌ ํ๊ณ์ธ๊ฐ? ๊ทธ ํ๊ณ์ ๋๋ฌํ๊ธฐ ์ ์ ๋ค์ ์ ์ฝ์ ์๋ณํ๋ ๊ฒ์ด ์ ์ ์ ์ฐ๊ตฌ ํฌ์๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ด๋ค.ํ๊ฐ์ ์งํ: LLM๋ค์ด ํ
์คํธ ์์ฑ๊ธฐ์์ ์์จ ์์ด์ ํธ๋ก ์งํํจ์ ๋ฐ๋ผ, ํ๊ฐ ์ญ์ ๊ทธ์ ์์ํ๊ฒ ์งํํด์ผ ํ๋ค. ์ด๋ค ๋ฒค์น๋งํฌ๊ฐ ์ฐจ์ธ๋ LLM ์ญ๋ ํ๊ฐ๋ฅผ ์ ์ํ๊ฒ ๋ ๊ฒ์ธ๊ฐ?ํตํฉ์ ๋ฌธ์ : LLM ํ๊ฒฝ์ด ์์์ ์ง๋ฐฐ์ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ ์ค์ฌ์ผ๋ก ํตํฉ๋ ๊ฒ์ธ๊ฐ(๊ฒ์ ์์ง๊ณผ ์์
๋คํธ์ํฌ์์ ์ผ์ด๋ฌ๋ ๊ฒ์ฒ๋ผ), ์๋๋ฉด ๋ง์ ์คํ ๊ฐ๋ฅํ ์ ๊ทผ ๋ฐฉ์๋ค๋ก ํํธํ๋ ์ฑ ์ ์ง๋ ๊ฒ์ธ๊ฐ?๋น์ ์ ์ฐ๊ตฌ์ ์ฃผ๋ ์๋ฏธ
LLM์ ํ์ฉํ๊ฑฐ๋ ์ฐ๊ตฌํ๋ ๋ชจ๋ ์ฐ๊ตฌ์์๊ฒ LLMOrbit๋ ํ์์ ์ธ ๋งฅ๋ฝ์ ์ ๊ณตํ๋ค. ์ด ๋ถ์ผ๊ฐ ๊ฑธ์ด์จ ๊ธธโ๊ทธ๋ฆฌ๊ณ ์ ๊ทธ๋ฌํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋์งโ์ ์ดํดํ๋ ๊ฒ์ ์์ผ๋ก์ ๋ฐฉํฅ๊ณผ ๊ฐ์ฅ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ ๊ธฐํ๊ฐ ์ด๋์ ์๋์ง๋ฅผ ํ์
ํ๊ธฐ ์ํ ์ ์ ์กฐ๊ฑด์ด๋ค.
๋ถ๋ฅ ์ฒด๊ณ๋ก๋ถํฐ ๋์ถ๋๋ ํต์ฌ ์ ๋ต์ ํต์ฐฐ์ ๋ค์๊ณผ ๊ฐ๋ค: ๊ท๋ชจ๋ง์ผ๋ก ์น๋ฆฌํ๋ ์๋๋ ์ ๋ฌผ๊ณ ์๋ค. ์ด๋ฆฐ ๊ฐ์ฒ์ง๋ ์ถ๋ก ํ์ง, ๋๋ฉ์ธ ํนํ, ๋ฉํฐ๋ชจ๋ฌ ํตํฉ, ๊ทธ๋ฆฌ๊ณ ์์ด์ ํฑ ์ญ๋์ด๋ค. ์ด๋ฌํ ๋ฐฉํฅ์ ํฌ์ํ๋ ์ฐ๊ตฌ์๋ค์ ๋จ์ํ ์ค์ผ์ผ๋ง ์ถ๊ตฌ๋ฅผ ์ง์ํ๋ ์ฐ๊ตฌ์๋ค๋ณด๋ค ๋ ์ ๋ฆฌํ ์์น์ ์๋ค.
๋ ๋์ AI ์ปค๋ฎค๋ํฐ์๊ฒ LLMOrbit๋ ๋น ๋ฅธ ๋ฐ์ ์ด ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ๋ค์ ๊ฐ๋ฆด ์ ์๋ค๋ ์ ์ ์๊ธฐ์์ผ ์ค๋ค. ์ฐ๋ฆฌ๋ ๋๋ผ์ด ์ญ๋์ ๊ฐ์ถ ์์คํ
์ ๊ตฌ์ถํด ์๋คโ๊ทธ๋ฌ๋ ์ด ์์คํ
๋ค์ด ๋ฌด์์ธ์ง, ์ด๋ป๊ฒ ๊ฑฐ๋ฒ๋์ค๋์ด์ผ ํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์ฌํ์์ ์ด๋ค ์ญํ ์ ๋ด๋นํด์ผ ํ๋์ง์ ๋ฌธ์ ๋ 7๋
์ GPT-2๊ฐ ๊ณต๊ฐ๋์์ ๋์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ์ ํ ์ด๋ ค ์๋ค.