Deep DiveMathematics & StatisticsMachine/Deep Learning
Aristotle at the Olympiad: AI Achieves Gold-Medal Mathematics Without Human Coaching
Aristotle solves 2025 International Mathematical Olympiad problems at gold-medal level by combining informal mathematical intuition (LLM reasoning) with formal proof verification (Lean 4). MATP-BENCH extends the challenge to multimodal problems requiring diagram understanding.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The International Mathematical Olympiad is the most prestigious mathematics competition for pre-university students. Its problems are designed to resist systematic solution methodsโrequiring creative insight, novel construction, and the ability to connect disparate mathematical ideas in ways that standard techniques do not prescribe. An IMO gold medal signifies mathematical talent at a level achieved by only a few hundred people worldwide each year.
Achim et al.'s Aristotle system solves 2025 IMO problems at gold-medal-equivalent performance, formally proving IMO-level problems in Lean 4. The system combines three components: a Lean proof search engine, an informal reasoning system for lemma generation, and a dedicated geometry solver. For some problems, Aristotle produces proofs that take different approaches from typical human solutionsโfor instance, a more algebraic proof where humans favor geometric argumentsโthough the informal reasoning process is described by the authors as inherently noisy, with gaps and errors that the formal verification step catches.
The Dual Architecture
Aristotle's achievement rests on a dual architecture that mirrors the two modes of mathematical thinking:
Informal reasoning (System 1): An LLM-based module reads the problem in natural language and generates a high-level proof strategyโa sketch of how the proof should proceed, which mathematical tools might be relevant, and what the key insights are. This is analogous to a mathematician's initial intuition: "This looks like it might yield to an induction argument combined with a pigeonhole principle application."
Formal verification (System 2): A Lean 4-based proof search system translates the informal strategy into rigorous formal proof steps. Each step is machine-verifiedโensuring that the proof is not just plausible but mathematically valid. This is analogous to a mathematician writing out the full proof, checking each deduction.
Integration layer: A meta-controller mediates between the two systems. When the informal strategy suggests an approach that the formal system cannot complete, the controller backtracks and requests an alternative strategy. When the formal system discovers that an intermediate claim is unprovable, it feeds this information back to the informal reasoner, which adjusts its approach.
This integration is the key architectural innovation. Previous systems operated in either informal mode (generating plausible but unverified solutions) or formal mode (searching for proofs within a fixed strategy space). Aristotle is among the first to operationalize the interplay between insight and rigor that characterizes human mathematical reasoning.
Multimodal Mathematics: MATP-BENCH
He et al.'s MATP-BENCH extends the automated theorem proving challenge to multimodal problemsโmathematical problems that include diagrams, figures, and geometric constructions alongside text. Many competition mathematics problems (and much of geometry) are inherently visual: the diagram is not merely an illustration but an essential part of the problem statement.
Multimodal LLMs can perceive diagrams, but using visual information for formal mathematical reasoning presents unique challenges:
- Extracting geometric relationships from a diagram (which points are collinear, which angles are equal, which segments are parallel) requires visual understanding combined with geometric knowledge
- Formalizing visual intuition (this triangle "looks" isosceles) into precise mathematical claims that can be verified
- Using diagram information to guide proof searchโhuman mathematicians frequently "see" the proof strategy in the diagram before formalizing it
MATP-BENCH evaluates whether current multimodal LLMs can perform these steps, and the results reveal substantial gaps: models that perform well on text-only mathematical reasoning degrade when diagrams are introduced, suggesting that visual mathematical reasoning is a distinct capability from textual mathematical reasoning.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| AI can solve IMO-level competition problems | Aristotle demonstrates gold-medal equivalent on 2025 IMO | โ
Demonstrated |
| Informal-formal integration improves over either alone | Aristotle outperforms both informal-only and formal-only baselines | โ
Supported |
| Current MLLMs handle multimodal mathematical reasoning well | MATP-BENCH shows degradation when diagrams are introduced | โ Not yet |
| AI mathematical reasoning transfers across problem types | Limited evidence; performance varies by mathematical domain | โ ๏ธ Domain-dependent |
Open Questions
Research mathematics: IMO problems, while difficult, are solvable with known techniques. Can AI systems tackle open research problemsโconjectures where the answer is genuinely unknown?Mathematical taste: Human mathematicians have "taste"โan intuition for which problems are important, which approaches are elegant, which results are surprising. Can AI develop mathematical taste, or will it remain a powerful but undiscriminating tool?Collaboration models: How should mathematicians work with AI proof assistants? As verifiers (checking human proofs)? As co-authors (contributing novel proof steps)? As explorers (systematically searching for proofs of conjectured results)?Educational implications: If AI can solve competition mathematics at gold-medal level, what does this mean for mathematics education? Does it devalue competition training, or does it provide a new pedagogical tool?What This Means for Your Research
For mathematicians, Aristotle represents both a tool and a challenge. The tool: AI proof assistants that can verify and extend mathematical work. The challenge: understanding what mathematical creativity means when machines can replicate its outputs. The resolution, likely, is that AI handles the routine aspects of mathematical reasoningโfreeing mathematicians for the conceptual work that remains distinctly human.
For AI researchers, competition mathematics provides a uniquely rigorous evaluation domain. The problems are hard, the solutions are verifiable, and the comparison to human performance is direct. Aristotle's success raises the bar for what we expect from AI reasoning systems.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.
์ฌ๋ฆผํผ์๋์ ์๋ฆฌ์คํ ํ
๋ ์ค: AI, ์ธ๊ฐ ์ฝ์น ์์ด ์ํ ๊ธ๋ฉ๋ฌ ์์ค ๋ฌ์ฑ
๊ตญ์ ์ํ์ฌ๋ฆผํผ์๋(IMO)๋ ๋ํ ์
ํ ์ ํ์๋ค์ ๋์์ผ๋ก ํ๋ ๊ฐ์ฅ ๊ถ์ ์๋ ์ํ ๊ฒฝ์๋ํ์ด๋ค. IMO ๋ฌธ์ ๋ค์ ์ฒด๊ณ์ ์ธ ํ์ด ๋ฐฉ๋ฒ์ ์ ํญํ๋๋ก ์ค๊ณ๋์ด ์์ผ๋ฉฐ, ์ฐฝ์์ ํต์ฐฐ๋ ฅ, ๋
์ฐฝ์ ๊ตฌ์ฑ, ๊ทธ๋ฆฌ๊ณ ํ์ค์ ์ธ ๊ธฐ๋ฒ์ผ๋ก๋ ๊ท์ ํ ์ ์๋ ๋ฐฉ์์ผ๋ก ์๋ก ์ด์ง์ ์ธ ์ํ์ ์์ด๋์ด๋ค์ ์ฐ๊ฒฐํ๋ ๋ฅ๋ ฅ์ ์๊ตฌํ๋ค. IMO ๊ธ๋ฉ๋ฌ์ ์ ์ธ๊ณ์ ์ผ๋ก ๋งค๋
์๋ฐฑ ๋ช
๋ง์ด ๋ฌ์ฑํ ์ ์๋ ์์ค์ ์ํ์ ์ฌ๋ฅ์ ์๋ฏธํ๋ค.
Achim et al.์ Aristotle ์์คํ
์ 2025๋
IMO ๋ฌธ์ ๋ค์ ๊ธ๋ฉ๋ฌ์ ์์ํ๋ ์ฑ๋ฅ์ผ๋ก ํ์ด๋ด๋ฉฐ, Lean 4์์ IMO ์์ค์ ๋ฌธ์ ๋ค์ ํ์์ ์ผ๋ก ์ฆ๋ช
ํ๋ค. ์ด ์์คํ
์ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ฅผ ๊ฒฐํฉํ๋ค: Lean ์ฆ๋ช
ํ์ ์์ง, ๋ณด์กฐ ์ ๋ฆฌ(lemma) ์์ฑ์ ์ํ ๋นํ์์ ์ถ๋ก ์์คํ
, ๊ทธ๋ฆฌ๊ณ ์ ์ฉ ๊ธฐํํ ํ์ด๊ธฐ์ด๋ค. ์ผ๋ถ ๋ฌธ์ ์ ๋ํด Aristotle์ ์ผ๋ฐ์ ์ธ ์ธ๊ฐ ํ์ด์๋ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ฆ๋ช
์ ์ฐ์ถํ๋๋ฐ, ์๋ฅผ ๋ค์ด ์ธ๊ฐ์ด ๊ธฐํํ์ ๋
ผ์ฆ์ ์ ํธํ๋ ๊ณณ์์ ๋ ๋์์ ์ธ ์ฆ๋ช
์ ์ ์ํ๊ธฐ๋ ํ๋ค. ๋ค๋ง ์ ์๋ค์ ๋นํ์์ ์ถ๋ก ๊ณผ์ ์ด ๋ณธ์ง์ ์ผ๋ก ๋
ธ์ด์ฆ๊ฐ ๋ง๊ณ ๊ณต๋ฐฑ๊ณผ ์ค๋ฅ๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ ํ์์ ๊ฒ์ฆ ๋จ๊ณ์์ ํฌ์ฐฉ๋๋ค๊ณ ์ค๋ช
ํ๋ค.
์ด์ค ์ํคํ
์ฒ
Aristotle์ ์ฑ์ทจ๋ ์ํ์ ์ฌ๊ณ ์ ๋ ๊ฐ์ง ์์์ ๋ฐ์ํ๋ ์ด์ค ์ํคํ
์ฒ์ ๊ธฐ๋ฐํ๋ค.
๋นํ์์ ์ถ๋ก (System 1): LLM ๊ธฐ๋ฐ ๋ชจ๋์ด ์์ฐ์ด๋ก ๋ ๋ฌธ์ ๋ฅผ ์ฝ๊ณ ๊ณ ์์ค์ ์ฆ๋ช
์ ๋ต์ ์์ฑํ๋ค. ์ฆ, ์ฆ๋ช
์ด ์ด๋ป๊ฒ ์งํ๋์ด์ผ ํ๋์ง์ ๊ฐ์, ์ด๋ค ์ํ์ ๋๊ตฌ๋ค์ด ๊ด๋ จ๋ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ํต์ฌ ํต์ฐฐ์ด ๋ฌด์์ธ์ง๋ฅผ ์ค์ผ์นํ๋ค. ์ด๋ ์ํ์์ ์ด๊ธฐ ์ง๊ด์ ์ ์ฌํ๋ค: "์ด ๋ฌธ์ ๋ ๊ท๋ฉ๋ฒ ๋
ผ์ฆ๊ณผ ๋น๋๊ธฐ์ง ์๋ฆฌ์ ์ ์ฉ์ ๊ฒฐํฉํ๋ฉด ํ๋ฆด ๊ฒ ๊ฐ๋ค."
ํ์์ ๊ฒ์ฆ(System 2): Lean 4 ๊ธฐ๋ฐ ์ฆ๋ช
ํ์ ์์คํ
์ด ๋นํ์์ ์ ๋ต์ ์๋ฐํ ํ์์ ์ฆ๋ช
๋จ๊ณ๋ค๋ก ๋ณํํ๋ค. ๊ฐ ๋จ๊ณ๋ ๊ธฐ๊ณ์ ์ผ๋ก ๊ฒ์ฆ๋์ด, ์ฆ๋ช
์ด ๊ทธ๋ด๋ฏํ ๋ฟ๋ง ์๋๋ผ ์ํ์ ์ผ๋ก ์ ํจํจ์ ๋ณด์ฅํ๋ค. ์ด๋ ์ํ์๊ฐ ์ ์ฒด ์ฆ๋ช
์ ์์ฑํ๋ฉฐ ๊ฐ ์ถ๋ก ์ ์ ๊ฒํ๋ ๊ฒ์ ์ ์ฌํ๋ค.
ํตํฉ ๋ ์ด์ด: ๋ฉํ ์ปจํธ๋กค๋ฌ๊ฐ ๋ ์์คํ
์ฌ์ด๋ฅผ ์ค์ฌํ๋ค. ๋นํ์์ ์ ๋ต์ด ํ์์ ์์คํ
์ด ์๋ฃํ ์ ์๋ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ ๋, ์ปจํธ๋กค๋ฌ๋ ์ญ์ถ์ ํ์ฌ ๋์์ ์ ๋ต์ ์์ฒญํ๋ค. ํ์์ ์์คํ
์ด ์ค๊ฐ ์ฃผ์ฅ์ด ์ฆ๋ช
๋ถ๊ฐ๋ฅํจ์ ๋ฐ๊ฒฌํ ๋, ์ด ์ ๋ณด๋ฅผ ๋นํ์์ ์ถ๋ก ๊ธฐ์ ํผ๋๋ฐฑํ๊ณ ์ถ๋ก ๊ธฐ๋ ์ ๊ทผ ๋ฐฉ์์ ์์ ํ๋ค.
์ด ํตํฉ์ด ํต์ฌ์ ์ธ ์ํคํ
์ฒ ํ์ ์ด๋ค. ์ด์ ์์คํ
๋ค์ ๋นํ์์ ๋ชจ๋(๊ทธ๋ด๋ฏํ์ง๋ง ๊ฒ์ฆ๋์ง ์์ ํ์ด๋ฅผ ์์ฑ)๋ ํ์์ ๋ชจ๋(๊ณ ์ ๋ ์ ๋ต ๊ณต๊ฐ ๋ด์์ ์ฆ๋ช
์ ํ์) ์ค ํ๋๋ก๋ง ์๋ํ๋ค. Aristotle์ ์ธ๊ฐ์ ์ํ์ ์ถ๋ก ์ ํน์ง์ง๋ ํต์ฐฐ๊ณผ ์๋ฐ์ฑ ์ฌ์ด์ ์ํธ์์ฉ์ ๊ตฌํํ ์ต์ด์ ์์คํ
๋ค ์ค ํ๋์ด๋ค.
๋ฉํฐ๋ชจ๋ฌ ์ํ: MATP-BENCH
He et al.์ MATP-BENCH๋ ์๋ํ๋ ์ ๋ฆฌ ์ฆ๋ช
๊ณผ์ ๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ๋ฌธ์ ๋ก ํ์ฅํ๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ฌธ์ ๋ ํ
์คํธ์ ํจ๊ป ๋ค์ด์ด๊ทธ๋จ, ๊ทธ๋ฆผ, ๊ธฐํํ์ ์๋๋ฅผ ํฌํจํ๋ ์ํ ๋ฌธ์ ๋ฅผ ๋งํ๋ค. ๋ง์ ๊ฒฝ์์ํ ๋ฌธ์ ๋ค(๊ทธ๋ฆฌ๊ณ ๊ธฐํํ์ ์๋น ๋ถ๋ถ)์ ๋ณธ์ง์ ์ผ๋ก ์๊ฐ์ ์ด๋ค: ๋ค์ด์ด๊ทธ๋จ์ ๋จ์ํ ์ฝํ๊ฐ ์๋๋ผ ๋ฌธ์ ์ง์ ์ ํ์์ ์ธ ๋ถ๋ถ์ด๋ค.
๋ฉํฐ๋ชจ๋ฌ LLM์ ๋ค์ด์ด๊ทธ๋จ์ ์ธ์ํ ์ ์์ง๋ง, ์๊ฐ์ ์ ๋ณด๋ฅผ ํ์์ ์ธ ์ํ์ ์ถ๋ก ์ ํ์ฉํ๋ ๊ฒ์ ๊ณ ์ ํ ๋์ ๊ณผ์ ๋ค์ ์ ์ํ๋ค:
- ๋ค์ด์ด๊ทธ๋จ์ผ๋ก๋ถํฐ ๊ธฐํํ์ ๊ด๊ณ๋ฅผ ์ถ์ถํ๋ ๊ฒ(์ด๋ค ์ ๋ค์ด ๊ณต์ (collinear)์ธ์ง, ์ด๋ค ๊ฐ๋๊ฐ ๋์ผํ์ง, ์ด๋ค ์ ๋ถ์ด ํํํ์ง)์ ์๊ฐ์ ์ดํด์ ๊ธฐํํ์ ์ง์์ ๊ฒฐํฉ์ ์๊ตฌํ๋ค.
- ์๊ฐ์ ์ง๊ด์ ํ์ํํ๋ ๊ฒ(์ด ์ผ๊ฐํ์ด ์ด๋ฑ๋ณ์ผ๊ฐํ์ฒ๋ผ "๋ณด์ธ๋ค")์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ ๋ฐํ ์ํ์ ์ฃผ์ฅ์ผ๋ก ๋ณํํ๋ ๊ฒ์ด ์๊ตฌ๋๋ค.
- ๋ค์ด์ด๊ทธ๋จ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ฆ๋ช
ํ์์ ์ ๋ํ๋ ๊ฒโ์ธ๊ฐ ์ํ์๋ค์ ํํ ํ์ํํ๊ธฐ ์ ์ ๋ค์ด์ด๊ทธ๋จ์์ ์ฆ๋ช
์ ๋ต์ "ํฌ์ฐฉ"ํ๋ค
MATP-BENCH๋ ํ์ฌ์ ๋ฉํฐ๋ชจ๋ฌ LLM์ด ์ด๋ฌํ ๋จ๊ณ๋ค์ ์ํํ ์ ์๋์ง ํ๊ฐํ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ๋ ์๋นํ ๊ฒฉ์ฐจ๋ฅผ ๋๋ฌ๋ธ๋ค: ํ
์คํธ ์ ์ฉ ์ํ์ ์ถ๋ก ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ด ๋ค์ด์ด๊ทธ๋จ์ด ๋์
๋๋ฉด ์ฑ๋ฅ์ด ์ ํ๋๋ฉฐ, ์ด๋ ์๊ฐ์ ์ํ ์ถ๋ก ์ด ํ
์คํธ ์ํ ์ถ๋ก ๊ณผ๋ ๊ตฌ๋ณ๋๋ ๋ฅ๋ ฅ์์ ์์ฌํ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ๊ฒฐ |
|---|
| AI๊ฐ IMO ์์ค์ ๊ฒฝ์ ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค | Aristotle์ด 2025 IMO์์ ๊ธ๋ฉ๋ฌ ๋๊ธ ์ฑ์ ์ ๋ฌ์ฑ | โ
์
์ฆ๋จ |
| ๋นํ์-ํ์ ํตํฉ์ด ๊ฐ๊ฐ ๋จ๋
๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋๋ค | Aristotle์ด ๋นํ์ ์ ์ฉ ๋ฐ ํ์ ์ ์ฉ ๊ธฐ์ค์ ๋ชจ๋๋ฅผ ๋ฅ๊ฐ | โ
์ง์ง๋จ |
| ํ์ฌ์ MLLM์ด ๋ฉํฐ๋ชจ๋ฌ ์ํ์ ์ถ๋ก ์ ์ ์ฒ๋ฆฌํ๋ค | MATP-BENCH์์ ๋ค์ด์ด๊ทธ๋จ ๋์
์ ์ฑ๋ฅ ์ ํ๊ฐ ๋ํ๋จ | โ ์์ง ๋ฏธ๋ฌ |
| AI ์ํ์ ์ถ๋ก ์ด ๋ฌธ์ ์ ํ ์ ๋ฐ์ ๊ฑธ์ณ ์ ์ด๋๋ค | ๊ทผ๊ฑฐ ์ ํ์ ; ์ํ ๋ถ์ผ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์์ดํจ | โ ๏ธ ๋ถ์ผ ์์กด์ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
์ํ ์ฐ๊ตฌ: IMO ๋ฌธ์ ๋ค์ ์ด๋ ต๊ธฐ๋ ํ์ง๋ง ์๋ ค์ง ๊ธฐ๋ฒ์ผ๋ก ํ ์ ์๋ค. AI ์์คํ
์ด ๋ต์ด ์ง์ ์ผ๋ก ์๋ ค์ง์ง ์์ ๋ฏธํด๊ฒฐ ์ฐ๊ตฌ ๋ฌธ์ โ์ฆ ์ถ์ธก(conjecture)โ์ ๋์ ํ ์ ์์๊น?์ํ์ ๊ฐ๊ฐ: ์ธ๊ฐ ์ํ์๋ค์ "๊ฐ๊ฐ(taste)"์ ์ง๋๋คโ์ด๋ค ๋ฌธ์ ๊ฐ ์ค์ํ์ง, ์ด๋ค ์ ๊ทผ๋ฒ์ด ์ฐ์ํ์ง, ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋๋ผ์ด์ง์ ๋ํ ์ง๊ด์ด๋ค. AI๊ฐ ์ํ์ ๊ฐ๊ฐ์ ๋ฐ์ ์ํฌ ์ ์์๊น, ์๋๋ฉด ๊ฐ๋ ฅํ์ง๋ง ๋ถ๋ณ๋ ฅ ์๋ ๋๊ตฌ๋ก ๋จ์ ๊ฒ์ธ๊ฐ?ํ๋ ฅ ๋ชจ๋ธ: ์ํ์๋ค์ AI ์ฆ๋ช
๋ณด์กฐ ๋๊ตฌ์ ์ด๋ป๊ฒ ํ๋ ฅํด์ผ ํ๋๊ฐ? ๊ฒ์ฆ์(์ธ๊ฐ์ ์ฆ๋ช
์ ๊ฒํ )๋ก์? ๊ณต๋ ์ ์(์๋ก์ด ์ฆ๋ช
๋จ๊ณ๋ฅผ ๊ธฐ์ฌ)๋ก์? ํ์์(์ถ์ธก๋ ๊ฒฐ๊ณผ์ ์ฆ๋ช
์ ์ฒด๊ณ์ ์ผ๋ก ํ์)๋ก์?๊ต์ก์ ํจ์: AI๊ฐ ๊ฒฝ์ ์ํ์ ๊ธ๋ฉ๋ฌ ์์ค์ผ๋ก ํ ์ ์๋ค๋ฉด, ์ํ ๊ต์ก์๋ ์ด๋ค ์๋ฏธ๊ฐ ์๋๊ฐ? ์ด๊ฒ์ด ๊ฒฝ์ ํ๋ จ์ ๊ฐ์น๋ฅผ ๋จ์ด๋จ๋ฆฌ๋๊ฐ, ์๋๋ฉด ์๋ก์ด ๊ต์กํ์ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋๊ฐ?์ฐ๊ตฌ์์๊ฒ ์ฃผ๋ ์์ฌ์
์ํ์๋ค์๊ฒ Aristotle์ ๋๊ตฌ์ธ ๋์์ ๋์ ๊ณผ์ ์ด๋ค. ๋๊ตฌ๋ก์: AI ์ฆ๋ช
๋ณด์กฐ ๋๊ตฌ๊ฐ ์ํ์ ์์
์ ๊ฒ์ฆํ๊ณ ํ์ฅํ ์ ์๋ค. ๋์ ๊ณผ์ ๋ก์: ๊ธฐ๊ณ๊ฐ ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ ์ฌํํ ์ ์์ ๋ ์ํ์ ์ฐฝ์์ฑ์ด ๋ฌด์์ ์๋ฏธํ๋์ง ์ดํดํ๋ ๊ฒ์ด๋ค. ๊ทธ ํด๊ฒฐ์ฑ
์, ์๋ง๋, AI๊ฐ ์ํ์ ์ถ๋ก ์ ์ผ์์ ์ธ ์ธก๋ฉด์ ๋ด๋นํ์ฌโ์ํ์๋ค์ด ์ฌ์ ํ ์ธ๊ฐ ๊ณ ์ ์ ์์ญ์ผ๋ก ๋จ์ ์๋ ๊ฐ๋
์ ์์
์ ์ง์คํ ์ ์๋๋ก ํด๋ฐฉ์ํค๋ ๊ฒ์ด๋ค.
AI ์ฐ๊ตฌ์๋ค์๊ฒ ๊ฒฝ์ ์ํ์ ๋
๋ณด์ ์ผ๋ก ์๊ฒฉํ ํ๊ฐ ์์ญ์ ์ ๊ณตํ๋ค. ๋ฌธ์ ๋ค์ ์ด๋ ต๊ณ , ํ์ด๋ ๊ฒ์ฆ ๊ฐ๋ฅํ๋ฉฐ, ์ธ๊ฐ ์ฑ๋ฅ๊ณผ์ ๋น๊ต๋ ์ง์ ์ ์ด๋ค. Aristotle์ ์ฑ๊ณต์ AI ์ถ๋ก ์์คํ
์ ๊ธฐ๋ํ๋ ๊ธฐ์ค์ ๋์ธ๋ค.
References (2)
[1] Achim, T., Best, A., Bietti, A. et al. (2025). Aristotle: IMO-level Automated Theorem Proving. arXiv:2510.01346.
[2] He, Z., Lyu, Z., Chen, D. et al. (2025). MATP-BENCH: Can MLLM Be a Good Automated Theorem Prover for Multimodal Problems? arXiv:2506.06034.