Paper ReviewMathematics & StatisticsMachine/Deep Learning
Goedel-Prover: How an Open-Source Model Reached the Frontier of Automated Theorem Proving
Goedel-Prover is the leading open-source automated theorem proverโachieving state-of-the-art performance in Lean 4 through a bootstrapping strategy that generates its own training data. Seed-Prover complements it with reinforcement learning for deeper reasoning chains.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Automated theorem proving occupies a unique position in AI research: it is the only domain where correctness is absolute. A generated proof is either validโevery step follows from axioms and previously proven lemmasโor it is not. There is no "mostly correct" proof, no "approximately valid" derivation. This binary standard makes ATP both the hardest and most meaningful benchmark for machine reasoning.
Goedel-Prover (Lin et al.) has emerged as the leading open-source system for generating formal proofs in Lean 4, the proof assistant increasingly adopted by the mathematical community for both research and education. Its success rests not on architectural novelty but on a practical insight about the field's central bottleneck: data scarcity.
The entire corpus of formalized mathematicsโtheorems and proofs written in machine-verifiable languagesโis minuscule compared to the datasets that power other AI systems. The Mathlib library for Lean 4, the largest repository of formalized mathematics, contains over 210,000 theorems and 100,000 definitions (as of mid-2025). Compare this to the trillions of tokens used to train language models. The five-order-of-magnitude gap explains why standard scaling approaches fail for theorem proving: there simply is not enough formal mathematical data to train a prover through supervised learning alone.
Goedel-Prover addresses this through self-bootstrapping: the system generates its own training data by formalizing existing mathematical problems into Lean 4 statements, attempting to prove them, and adding successful proofs to its training corpus. The cycle operates as follows:
An LLM formalizes mathematical problems from existing datasets (e.g., the Numina competition dataset) into Lean 4 formal statements
The prover attempts to prove each formalized statement
Successful proofs are added to the training set
The prover is retrained on the expanded dataset of verified proofs
The improved prover tackles harder formalization problems, and the cycle repeatsThis iterative training mechanism enables the system to build mathematical capability from existing competition-level problems at scale. The result is the Goedel-Pset-v1 corpus: 1.64 million formal statements with over 800,000 accompanied by verified proofsโthe largest open-source dataset of its kind.
Seed-Prover: Depth Through Reinforcement Learning
Chen et al.'s Seed-Prover takes a complementary approach. Rather than generating more data, it extracts more learning from existing data through reinforcement learning with deep reasoning chains.
Standard RL for theorem proving provides reward only for completed proofsโa binary signal (proof verified by Lean / proof not verified) that provides no information about partial progress. For difficult theorems where complete proofs are rare, this sparse reward signal makes learning extremely slow.
Seed-Prover addresses this sparsity through an intermediate lemma generation paradigm. Rather than attempting to prove theorems in a single pass, the system decomposes proofs into intermediate lemmasโeach of which can be independently verified by Lean (still a binary reward per lemma). This decomposition strategy effectively creates more frequent reward signals by breaking hard problems into verifiable sub-problems:
- Generating and proving lemmas that serve as sub-goals of the target theorem
- Composing verified lemmas into complete proofs
- Building a growing library of reusable proven lemmas
The result is proofs that are not merely correct but
well-structuredโorganized into logical sections with intermediate lemmas, in a style that human mathematicians would recognize as principled rather than accidental. This structural quality is not just aesthetically pleasing; it enables proof reuse, where lemmas proven for one theorem become available as building blocks for others.
The Lean 4 Ecosystem
Both systems target Lean 4 specifically, reflecting a strategic bet on the proof assistant ecosystem. Lean 4's combination of a powerful type system, a growing mathematical library (Mathlib), and an active community of mathematicians and computer scientists has positioned it as the platform of choice for formalized mathematics.
The ATP research community's convergence on Lean 4 creates a virtuous cycle: more theorem provers targeting Lean generate more formalized mathematics, which provides more training data for provers, which enables proving harder theorems, which attracts more mathematicians to formalization. Goedel-Prover's self-bootstrapping amplifies this cycle by generating training data that benefits the entire Lean ecosystem, not just its own training.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Self-bootstrapping effectively addresses formal math data scarcity | Goedel-Prover demonstrates improving performance through data generation cycles | โ
Supported |
| RL with intermediate rewards improves proof quality | Seed-Prover produces structured proofs with reusable lemmas | โ
Supported |
| Open-source ATP models can match proprietary performance | Goedel-Prover achieves state-of-the-art among open models (as of April 2025) | โ
Supported |
| ATP systems can prove research-level mathematics | Current systems handle competition and undergraduate-level problems; research frontiers remain out of reach | โ ๏ธ Not yet for open research problems |
| Lean 4 is the optimal platform for ATP research | Strong community and library; but Coq and Isabelle retain dedicated user bases | โ ๏ธ Dominant but not universal |
Open Questions
Conjecture quality: Goedel-Prover generates conjectures automatically, but are these conjectures mathematically interesting? A system that proves thousands of trivial variations adds data volume without mathematical depth. How do we guide conjecture generation toward mathematically meaningful territory?Proof search scalability: As target theorems become more difficult, the search space for proofs grows exponentially. Current tactic-based search methods hit walls at depth ~20-30 tactics. How do we extend proof search to the depth required for research-level mathematics?Cross-domain transfer: A prover trained on algebra may struggle with topology, and vice versa. How do we build provers that transfer mathematical knowledge across domainsโmirroring the human mathematician's ability to apply tools from one area to problems in another?Formalization vs. understanding: When Goedel-Prover generates a proof, does the underlying model "understand" the mathematics, or is it performing sophisticated pattern matching over tactic sequences? The answer matters for predicting where these systems will plateau.Human-prover collaboration: What is the optimal workflow for mathematicians using ATP tools? Should the prover attempt full proofs autonomously, or should it suggest proof strategies that the mathematician refines?What This Means for Your Research
For mathematicians, Goedel-Prover and Seed-Prover are tools that can verify conjectures, fill in routine proof details, and suggest proof approachesโaugmenting human mathematical reasoning without replacing the creative insight that drives mathematical discovery.
For AI researchers, formal mathematics provides the most rigorous evaluation domain available: proofs are either valid or invalid, with no ambiguity about evaluation. The bootstrapping and RL approaches developed here will transfer to other domains where formal correctness mattersโsoftware verification, hardware design, protocol analysis.
For the mathematical community broadly, the convergence of AI and formal mathematics is reshaping how mathematics is practiced, taught, and verified. The formalization movementโtranslating informal mathematical knowledge into machine-verifiable formโis accelerating, driven partly by ATP tools that make formalization productive rather than merely pedagogical.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ๋
ผ๋ฌธ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.
Goedel-Prover: ์คํ์์ค ๋ชจ๋ธ์ด ์๋ ์ ๋ฆฌ ์ฆ๋ช
์ ์ต์ ์ ์ ๋๋ฌํ ๋ฐฉ๋ฒ
์๋ ์ ๋ฆฌ ์ฆ๋ช
(Automated Theorem Proving, ATP)์ AI ์ฐ๊ตฌ์์ ๋
ํนํ ์์น๋ฅผ ์ฐจ์งํ๋ค. ์ด๋ ์ ํ์ฑ์ด ์ ๋์ ์ธ ๊ธฐ์ค์ผ๋ก ์ ์ฉ๋๋ ์ ์ผํ ๋ถ์ผ์ด๋ค. ์์ฑ๋ ์ฆ๋ช
์ ์ฌ๋ฐ๋ฅด๊ฑฐ๋โ๊ณต๋ฆฌ์ ์ด์ ์ ์ฆ๋ช
๋ ๋ณด์กฐ ์ ๋ฆฌ๋ก๋ถํฐ ๋ชจ๋ ๋จ๊ณ๊ฐ ๋์ถ๋๊ฑฐ๋โ๊ทธ๋ ์ง ์๊ฑฐ๋ ๋ ์ค ํ๋์ด๋ค. "๋๋ถ๋ถ ์ ํํ" ์ฆ๋ช
์ด๋ "๋๋ต์ ์ผ๋ก ์ ํจํ" ๋์ถ์ด๋ ์กด์ฌํ์ง ์๋๋ค. ์ด ์ด๋ถ๋ฒ์ ๊ธฐ์ค์ ATP๋ฅผ ๊ธฐ๊ณ ์ถ๋ก ์ ๋ํ ๊ฐ์ฅ ์ด๋ ต๊ณ ๋ ๊ฐ์ฅ ์๋ฏธ ์๋ ๋ฒค์น๋งํฌ๋ก ๋ง๋ ๋ค.
Goedel-Prover(Lin et al.)๋ Lean 4์์ ํ์ ์ฆ๋ช
์ ์์ฑํ๋ ์ ๋์ ์ธ ์คํ์์ค ์์คํ
์ผ๋ก ๋ถ์ํ์๋ค. Lean 4๋ ์ฐ๊ตฌ ๋ฐ ๊ต์ก ๋ชฉ์ ์ผ๋ก ์ํ ์ปค๋ฎค๋ํฐ์์ ์ ์ ๋ ๋ง์ด ์ฑํ๋๊ณ ์๋ ์ฆ๋ช
๋ณด์กฐ ๋๊ตฌ์ด๋ค. ์ด ์์คํ
์ ์ฑ๊ณต์ ์ํคํ
์ฒ์ ์ฐธ์ ํจ์ด ์๋๋ผ, ํด๋น ๋ถ์ผ์ ํต์ฌ์ ์ธ ๋ณ๋ชฉ ์ง์ ์ ๋ํ ์ค์ฉ์ ์ธ ํต์ฐฐ์ ๊ธฐ๋ฐํ๋ค. ๋ฐ๋ก ๋ฐ์ดํฐ ๋ถ์กฑ์ด๋ค.
ํ์ ์ํ์์์ ๋ฐ์ดํฐ ๋ฌธ์
๊ธฐ๊ณ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ธ์ด๋ก ์์ฑ๋ ์ ๋ฆฌ์ ์ฆ๋ช
์ผ๋ก ๊ตฌ์ฑ๋ ํ์ ์ํ์ ์ ์ฒด ์ฝํผ์ค๋, ๋ค๋ฅธ AI ์์คํ
์ ๊ตฌ๋ํ๋ ๋ฐ์ดํฐ์
์ ๋นํ๋ฉด ๊ทนํ ๋ฏธ๋ฏธํ ๊ท๋ชจ์ด๋ค. Lean 4์ฉ Mathlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ํ์ ์ํ์ ๊ฐ์ฅ ํฐ ์ ์ฅ์๋ก, 2025๋
์ค๋ฐ ๊ธฐ์ค์ผ๋ก 210,000๊ฐ ์ด์์ ์ ๋ฆฌ์ 100,000๊ฐ ์ด์์ ์ ์๋ฅผ ํฌํจํ๋ค. ์ด๋ฅผ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ ์์กฐ ๊ฐ์ ํ ํฐ๊ณผ ๋น๊ตํด ๋ณด๋ผ. ์ด ๋ค์ฏ ์๋ฆฟ์์ ๋ฌํ๋ ๊ท๋ชจ์ ๊ฒฉ์ฐจ๋ ์ ๋ฆฌ ์ฆ๋ช
์ ํ์ค์ ์ธ ์ค์ผ์ผ๋ง ์ ๊ทผ๋ฒ์ด ์ ์คํจํ๋์ง๋ฅผ ์ค๋ช
ํด ์ค๋ค. ์ง๋ ํ์ต๋ง์ผ๋ก ์ฆ๋ช
๊ธฐ๋ฅผ ํ๋ จํ๊ธฐ์๋ ์ถฉ๋ถํ ํ์ ์ํ ๋ฐ์ดํฐ๊ฐ ๋จ์ํ ์กด์ฌํ์ง ์๋๋ค.
Goedel-Prover๋ ์๊ธฐ ๋ถํธ์คํธ๋ํ(self-bootstrapping)์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ฆ, ์์คํ
์ด ๊ธฐ์กด ์ํ ๋ฌธ์ ๋ฅผ Lean 4 ๊ตฌ๋ฌธ์ผ๋ก ํ์ํํ๊ณ , ์ด๋ฅผ ์ฆ๋ช
ํ๋ ค ์๋ํ๋ฉฐ, ์ฑ๊ณตํ ์ฆ๋ช
์ ํ๋ จ ์ฝํผ์ค์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์์ฒด์ ์ธ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค. ์ด ์ฌ์ดํด์ ๋ค์๊ณผ ๊ฐ์ด ์๋ํ๋ค:
LLM์ด ๊ธฐ์กด ๋ฐ์ดํฐ์
(์: Numina ๋ํ ๋ฐ์ดํฐ์
)์ ์ํ ๋ฌธ์ ๋ฅผ Lean 4 ํ์ ๊ตฌ๋ฌธ์ผ๋ก ํ์ํํ๋ค
์ฆ๋ช
๊ธฐ๊ฐ ๊ฐ ํ์ํ๋ ๊ตฌ๋ฌธ์ ์ฆ๋ช
ํ๋ ค ์๋ํ๋ค
์ฑ๊ณตํ ์ฆ๋ช
์ด ํ๋ จ ์ธํธ์ ์ถ๊ฐ๋๋ค
์ฆ๋ช
๊ธฐ๊ฐ ํ์ฅ๋ ๊ฒ์ฆ ์ฆ๋ช
๋ฐ์ดํฐ์
์ผ๋ก ์ฌํ์ต๋๋ค
ํฅ์๋ ์ฆ๋ช
๊ธฐ๊ฐ ๋ ์ด๋ ค์ด ํ์ํ ๋ฌธ์ ์ ๋์ ํ๊ณ , ์ฌ์ดํด์ด ๋ฐ๋ณต๋๋ค์ด ๋ฐ๋ณต์ ํ๋ จ ๋ฉ์ปค๋์ฆ์ ์์คํ
์ด ๋๊ท๋ชจ์ ๊ธฐ์กด ๋ํ ์์ค ๋ฌธ์ ๋ก๋ถํฐ ์ํ์ ์ญ๋์ ๊ตฌ์ถํ ์ ์๊ฒ ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋ฐ๋ก Goedel-Pset-v1 ์ฝํผ์ค์ด๋ค. ์ด๋ 164๋ง ๊ฐ์ ํ์ ๊ตฌ๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ทธ์ค 800,000๊ฐ ์ด์์ ๊ฒ์ฆ๋ ์ฆ๋ช
์ด ํจ๊ป ์ ๊ณต๋๋, ๋์ข
์ต๋์ ์คํ์์ค ๋ฐ์ดํฐ์
์ด๋ค.
Seed-Prover: ๊ฐํ ํ์ต์ ํตํ ์ฌ์ธต์ ์ ๊ทผ
Chen et al.์ Seed-Prover๋ ์ํธ ๋ณด์์ ์ธ ์ ๊ทผ๋ฒ์ ์ทจํ๋ค. ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋์ , ์ฌ์ธต ์ถ๋ก ์ฒด์ธ์ ํ์ฉํ ๊ฐํ ํ์ต(reinforcement learning)์ ํตํด ๊ธฐ์กด ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ ๋ง์ ํ์ต์ ์ด๋์ด ๋ธ๋ค.
์ ๋ฆฌ ์ฆ๋ช
์ ์ํ ํ์ค์ ์ธ RL์ ์์ฑ๋ ์ฆ๋ช
์ ๋ํด์๋ง ๋ณด์์ ์ ๊ณตํ๋ค. ์ด๋ ์ด๋ถ๋ฒ์ ์ ํธ(Lean์ ์ํด ์ฆ๋ช
๊ฒ์ฆ๋จ / ์ฆ๋ช
๊ฒ์ฆ ์ ๋จ)๋ก์, ๋ถ๋ถ์ ์ธ ์ง์ ์ ๋ํ ์ ๋ณด๋ฅผ ์ ํ ์ ๊ณตํ์ง ์๋๋ค. ์์ ํ ์ฆ๋ช
์ด ๋๋ฌธ ์ด๋ ค์ด ์ ๋ฆฌ์ ๊ฒฝ์ฐ, ์ด ํฌ์ํ ๋ณด์ ์ ํธ๋ ํ์ต์ ๊ทน๋๋ก ๋๋ฆฌ๊ฒ ๋ง๋ ๋ค.
Seed-Prover๋ ์ค๊ฐ ๋ณด์กฐ ์ ๋ฆฌ ์์ฑ ํจ๋ฌ๋ค์์ ํตํด ์ด ํฌ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ ๋ฆฌ๋ฅผ ํ ๋ฒ์ ์ฆ๋ช
ํ๋ ค ์๋ํ๋ ๋์ , ์์คํ
์ ์ฆ๋ช
์ ์ค๊ฐ ๋ณด์กฐ ์ ๋ฆฌ๋ค๋ก ๋ถํดํ๋ค. ๊ฐ ๋ณด์กฐ ์ ๋ฆฌ๋ Lean์ ์ํด ๋
๋ฆฝ์ ์ผ๋ก ๊ฒ์ฆ๋ ์ ์๋ค(๋ณด์กฐ ์ ๋ฆฌ๋น ์ฌ์ ํ ์ด๋ถ๋ฒ์ ๋ณด์). ์ด ๋ถํด ์ ๋ต์ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๊ฒ์ฆ ๊ฐ๋ฅํ ํ์ ๋ฌธ์ ๋ก ์ธ๋ถํํจ์ผ๋ก์จ ํจ๊ณผ์ ์ผ๋ก ๋ ๋น๋ฒํ ๋ณด์ ์ ํธ๋ฅผ ์์ฑํ๋ค:
- ๋ชฉํ ์ ๋ฆฌ์ ํ์ ๋ชฉํ ์ญํ ์ ํ๋ ๋ณด์กฐ ์ ๋ฆฌ๋ฅผ ์์ฑํ๊ณ ์ฆ๋ช
ํ๊ธฐ
- ๊ฒ์ฆ๋ ๋ณด์กฐ ์ ๋ฆฌ๋ฅผ ์์ ํ ์ฆ๋ช
์ผ๋ก ๊ตฌ์ฑํ๊ธฐ
- ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ์ฆ๋ช
๋ ๋ณด์กฐ ์ ๋ฆฌ๋ก ์ด๋ฃจ์ด์ง ์ฑ์ฅํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถํ๊ธฐ
๊ฒฐ๊ณผ๋ฌผ์ ๋จ์ํ ์ ํํ ๊ฒ์ ๋์ด
์ฒด๊ณ์ ์ผ๋ก ๊ตฌ์กฐํ๋ ์ฆ๋ช
์ด๋ค. ์ค๊ฐ ๋ณด์กฐ์ ๋ฆฌ(lemma)๋ฅผ ํฌํจํ์ฌ ๋
ผ๋ฆฌ์ ๊ตฌํ์ผ๋ก ์กฐ์ง๋๋ฉฐ, ์ธ๊ฐ ์ํ์๋ค์ด ์ฐ์ฐ์ด ์๋ ์์น์ ์ธ ๋ฐฉ์์ผ๋ก ์ธ์ํ ์ ์๋ ์คํ์ผ์ ๋ฐ๋ฅธ๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ ํน์ฑ์ ๋ฏธ์ ์ผ๋ก ๋ง์กฑ์ค๋ฌ์ธ ๋ฟ๋ง ์๋๋ผ, ํ๋์ ์ ๋ฆฌ๋ฅผ ์ํด ์ฆ๋ช
๋ ๋ณด์กฐ์ ๋ฆฌ๊ฐ ๋ค๋ฅธ ์ ๋ฆฌ์ ๊ตฌ์ฑ ์์๋ก ํ์ฉ๋ ์ ์๋ ์ฆ๋ช
์ฌ์ฌ์ฉ(proof reuse)์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Lean 4 ์ํ๊ณ
๋ ์์คํ
๋ชจ๋ Lean 4๋ฅผ ๊ตฌ์ฒด์ ์ธ ๋ชฉํ ํ๋ซํผ์ผ๋ก ์ผ๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ฆ๋ช
๋ณด์กฐ ์์คํ
(proof assistant) ์ํ๊ณ์ ๋ํ ์ ๋ต์ ์ ํ์ ๋ฐ์ํ๋ค. Lean 4๋ ๊ฐ๋ ฅํ ํ์
์์คํ
, ์ฑ์ฅํ๋ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(Mathlib), ๊ทธ๋ฆฌ๊ณ ํ๋ฐํ ์ํ์ ๋ฐ ์ปดํจํฐ ๊ณผํ์ ์ปค๋ฎค๋ํฐ๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ํ์ํ ์ํ(formalized mathematics)์ ์ํ ์ต์ฐ์ ํ๋ซํผ์ผ๋ก ์๋ฆฌ๋งค๊นํ์๋ค.
ATP(Automated Theorem Proving) ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๊ฐ Lean 4๋ก ์๋ ดํ๋ ํ์์ ์ ์ํ์ ๋ง๋ค์ด๋ธ๋ค. Lean์ ๋์์ผ๋ก ํ๋ ๋ ๋ง์ ์ ๋ฆฌ ์ฆ๋ช
๊ธฐ(theorem prover)๊ฐ ๋ ๋ง์ ํ์ํ ์ํ์ ์์ฑํ๊ณ , ์ด๋ ์ฆ๋ช
๊ธฐ๋ฅผ ์ํ ๋ ๋ง์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ์ด๋ ค์ด ์ ๋ฆฌ๋ฅผ ์ฆ๋ช
ํ ์ ์๊ฒ ๋๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋ง์ ์ํ์๋ค์ด ํ์ํ์ ์ฐธ์ฌํ๊ฒ ๋๋ค. Goedel-Prover์ ์๊ธฐ ๋ถํธ์คํธ๋ํ(self-bootstrapping)์ ์์ฒด ํ๋ จ๋ฟ๋ง ์๋๋ผ Lean ์ํ๊ณ ์ ์ฒด์ ์ด๋ก์ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํจ์ผ๋ก์จ ์ด ์ ์ํ์ ๋์ฑ ์ฆํญ์ํจ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ์๊ธฐ ๋ถํธ์คํธ๋ํ์ ํ์ ์ํ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ค | Goedel-Prover๋ ๋ฐ์ดํฐ ์์ฑ ์ฃผ๊ธฐ๋ฅผ ํตํด ์ฑ๋ฅ ํฅ์์ ์ค์ฆํ๋ค | โ
์ง์ง๋จ |
| ์ค๊ฐ ๋ณด์์ ํ์ฉํ RL์ด ์ฆ๋ช
ํ์ง์ ํฅ์์ํจ๋ค | Seed-Prover๋ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ณด์กฐ์ ๋ฆฌ๋ฅผ ํฌํจํ ๊ตฌ์กฐํ๋ ์ฆ๋ช
์ ์์ฑํ๋ค | โ
์ง์ง๋จ |
| ์คํ์์ค ATP ๋ชจ๋ธ์ด ๋
์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ ํ ์ ์๋ค | Goedel-Prover๋ ์คํ ๋ชจ๋ธ ์ค ์ต๊ณ ์์ค(2025๋
4์ ๊ธฐ์ค)์ ๋ฌ์ฑํ๋ค | โ
์ง์ง๋จ |
| ATP ์์คํ
์ด ์ฐ๊ตฌ ์์ค์ ์ํ์ ์ฆ๋ช
ํ ์ ์๋ค | ํ์ฌ ์์คํ
์ ๊ฒฝ์๋ํ ๋ฐ ํ๋ถ ์์ค์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ฐ๊ตฌ์ ์ต์ ์ ์ ์์ง ๋๋ฌ ๋ถ๊ฐ๋ฅํ๋ค | โ ๏ธ ๋ฏธํด๊ฒฐ ์ฐ๊ตฌ ๋ฌธ์ ์๋ ์์ง ๋ฏธ์น์ง ๋ชปํจ |
| Lean 4๊ฐ ATP ์ฐ๊ตฌ๋ฅผ ์ํ ์ต์ ์ ํ๋ซํผ์ด๋ค | ๊ฐ๋ ฅํ ์ปค๋ฎค๋ํฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ฐ์ถ๊ณ ์์ผ๋, Coq์ Isabelle๋ ์ ์ฉ ์ฌ์ฉ์ ๊ธฐ๋ฐ์ ์ ์งํ๊ณ ์๋ค | โ ๏ธ ์ง๋ฐฐ์ ์ด๋ ๋ณดํธ์ ์ด์ง๋ ์์ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
์ถ์ธก์ ์ง: Goedel-Prover๋ ์ถ์ธก์ ์๋์ผ๋ก ์์ฑํ์ง๋ง, ์ด๋ฌํ ์ถ์ธก๋ค์ด ์ํ์ ์ผ๋ก ํฅ๋ฏธ๋ก์ด๊ฐ? ์์ฒ ๊ฐ์ง ์ฌ์ํ ๋ณํ์ ์ฆ๋ช
ํ๋ ์์คํ
์ ์ํ์ ๊น์ด ์์ด ๋ฐ์ดํฐ ์๋ง ์ถ๊ฐํ ๋ฟ์ด๋ค. ์ถ์ธก ์์ฑ์ ์ํ์ ์ผ๋ก ์๋ฏธ ์๋ ์์ญ์ผ๋ก ์ด๋ป๊ฒ ์ ๋ํ ๊ฒ์ธ๊ฐ?์ฆ๋ช
ํ์์ ํ์ฅ์ฑ: ๋ชฉํ ์ ๋ฆฌ๊ฐ ๋ ์ด๋ ค์์ง์๋ก ์ฆ๋ช
์ ์ํ ํ์ ๊ณต๊ฐ์ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. ํ์ฌ์ ํํฑ(tactic) ๊ธฐ๋ฐ ํ์ ๋ฐฉ๋ฒ์ ๊น์ด ์ฝ 20~30 ํํฑ์์ ํ๊ณ์ ๋ถ๋ชํ๋ค. ์ฐ๊ตฌ ์์ค์ ์ํ์ ํ์ํ ๊น์ด๊น์ง ์ฆ๋ช
ํ์์ ์ด๋ป๊ฒ ํ์ฅํ ๊ฒ์ธ๊ฐ?์์ญ ๊ฐ ์ ์ด: ๋์ํ(algebra)์ผ๋ก ํ๋ จ๋ ์ฆ๋ช
๊ธฐ๋ ์์์ํ(topology)์์ ์ด๋ ค์์ ๊ฒช์ ์ ์์ผ๋ฉฐ, ๊ทธ ๋ฐ๋๋ ๋ง์ฐฌ๊ฐ์ง์ด๋ค. ํ ์์ญ์ ๋๊ตฌ๋ฅผ ๋ค๋ฅธ ์์ญ์ ๋ฌธ์ ์ ์ ์ฉํ๋ ์ธ๊ฐ ์ํ์์ ๋ฅ๋ ฅ์ ๋ชจ๋ฐฉํ์ฌ, ์ํ์ ์ง์์ ์์ญ ๊ฐ์ ์ ์ดํ ์ ์๋ ์ฆ๋ช
๊ธฐ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ถํ ๊ฒ์ธ๊ฐ?ํ์ํ ๋ ์ดํด: Goedel-Prover๊ฐ ์ฆ๋ช
์ ์์ฑํ ๋, ๊ธฐ์ ์ ๋ชจ๋ธ์ด ์ํ์ "์ดํด"ํ๋ ๊ฒ์ธ๊ฐ, ์๋๋ฉด ํํฑ ์ํ์ค์ ๋ํ ์ ๊ตํ ํจํด ๋งค์นญ์ ์ํํ๋ ๊ฒ์ธ๊ฐ? ์ด ์ง๋ฌธ์ ๋ํ ๋ต์ ์ด๋ฌํ ์์คํ
์ด ์ด๋ ์ง์ ์์ ํ๊ณ์ ๋๋ฌํ ์ง๋ฅผ ์์ธกํ๋ ๋ฐ ์ค์ํ๋ค.์ธ๊ฐ-์ฆ๋ช
๊ธฐ ํ๋ ฅ: ATP ๋๊ตฌ๋ฅผ ํ์ฉํ๋ ์ํ์๋ค์ ์ต์ ์ํฌํ๋ก(workflow)๋ ๋ฌด์์ธ๊ฐ? ์ฆ๋ช
๊ธฐ๊ฐ ์์จ์ ์ผ๋ก ์์ ํ ์ฆ๋ช
์ ์๋ํด์ผ ํ๋๊ฐ, ์๋๋ฉด ์ํ์๊ฐ ๋ค๋ฌ์ ์ ์๋ ์ฆ๋ช
์ ๋ต์ ์ ์ํด์ผ ํ๋๊ฐ?์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
์ํ์๋ค์๊ฒ Goedel-Prover์ Seed-Prover๋ ์ถ์ธก์ ๊ฒ์ฆํ๊ณ , ์ผ์์ ์ธ ์ฆ๋ช
์ธ๋ถ ์ฌํญ์ ์ฑ์ฐ๋ฉฐ, ์ฆ๋ช
์ ๊ทผ๋ฒ์ ์ ์ํ๋ ๋๊ตฌ์ด๋ค. ์ฆ, ์ํ์ ๋ฐ๊ฒฌ์ ์ด๋๋ ์ฐฝ์์ ํต์ฐฐ์ ๋์ฒดํ์ง ์์ผ๋ฉด์ ์ธ๊ฐ์ ์ํ์ ์ถ๋ก ์ ๋ณด์ํ๋ค.
AI ์ฐ๊ตฌ์๋ค์๊ฒ ์์ด ํ์ ์ํ์ ํ์ฌ ์ด์ฉ ๊ฐ๋ฅํ ๊ฐ์ฅ ์๋ฐํ ํ๊ฐ ์์ญ์ ์ ๊ณตํ๋ค. ์ฆ๋ช
์ ํ๋นํ๊ฑฐ๋ ํ๋นํ์ง ์๊ฑฐ๋ ๋ ์ค ํ๋์ด๋ฉฐ, ํ๊ฐ์ ์์ด ์ด๋ ํ ๋ชจํธ์ฑ๋ ์๋ค. ์ฌ๊ธฐ์ ๊ฐ๋ฐ๋ bootstrapping ๋ฐ RL ์ ๊ทผ ๋ฐฉ์์ ํ์์ ์ ํ์ฑ์ด ์ค์ํ ๋ค๋ฅธ ์์ญ, ์ฆ ์ํํธ์จ์ด ๊ฒ์ฆ, ํ๋์จ์ด ์ค๊ณ, ํ๋กํ ์ฝ ๋ถ์ ๋ฑ์ผ๋ก ์ ์ด๋ ๊ฒ์ด๋ค.
์ํ ๊ณต๋์ฒด ์ ๋ฐ์ ์์ด AI์ ํ์ ์ํ์ ์๋ ด์ ์ํ์ด ์ค่ทต๋๊ณ , ๊ต์ก๋๊ณ , ๊ฒ์ฆ๋๋ ๋ฐฉ์์ ์ฌํธํ๊ณ ์๋ค. ํ์ํ ์ด๋, ์ฆ ๋นํ์์ ์ํ ์ง์์ ๊ธฐ๊ณ ๊ฒ์ฆ ๊ฐ๋ฅํ ํํ๋ก ๋ณํํ๋ ์์
์ ๊ฐ์ํ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋ถ๋ถ์ ์ผ๋ก ํ์ํ๋ฅผ ๋จ์ํ ๊ต์กํ์ ์ธ ๊ฒ์ด ์๋๋ผ ์์ฐ์ ์ธ ๊ฒ์ผ๋ก ๋ง๋๋ ATP ๋๊ตฌ๋ค์ ์ํด ์ถ๋๋๊ณ ์๋ค.
References (2)
[1] Lin, Y., Tang, S., Lyu, B. et al. (2025). Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving. arXiv:2502.07640.
[2] Chen, L., Gu, J., Huang, L. et al. (2025). Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving. arXiv:2507.23726.