Deep DiveAI & Machine LearningMachine/Deep Learning
The RLVR Paradox: Why Checking Only the Answer Makes the Reasoning Right
A persistent worry in RL-trained reasoning models: if you only reward the final answer, won't the model learn to reach correct answers through flawed reasoning? A new theoretical result shows that under specific conditions, GRPO with binary verifiable rewards implicitly amplifies the probability of correct chain-of-thoughtโnot just correct answers.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Here is a puzzle that has quietly troubled the reasoning-LLM community. You train a model with reinforcement learning, rewarding it when its final answer is correct and penalizing it when the answer is wrong. You never inspect the intermediate reasoning steps. You never reward good reasoning or penalize bad reasoning. You check only the output.
Common sense suggests this should produce a model that games the reward: finding shortcuts, memorizing answer patterns, or stumbling onto correct answers through flawed logic. The reasoning chain should degrade or become decorativeโpresent but not functional.
Yet empirically, models trained this wayโincluding DeepSeek-R1 and othersโdevelop coherent, step-by-step reasoning. The chains of thought are not random walks that happen to terminate at correct answers. They contain logical structure, self-correction, and verification steps. How?
The RLVR paper (2025) provides a theoretical answer: under specific, identifiable conditions, GRPO (Group Relative Policy Optimization) with binary verifiable rewards implicitly incentivizes correct chain-of-thought reasoning. The gradient does the work that explicit process supervision was thought to require.
The Research Landscape
The tension between outcome-based and process-based reward has been a central debate in reasoning model development. Process reward models (PRMs) evaluate each reasoning step individually, providing dense supervision that directly rewards correct reasoning. The drawback is cost: step-level annotations require expert human judgment, and training a separate reward model introduces its own failure modes.
Outcome reward models (ORMs) check only the final answer. They are cheap to constructโfor math problems, the answer is either right or wrong, verifiable automatically. But the theoretical concern is reward hacking: the model might learn associations between surface patterns and correct answers without developing genuine reasoning capability.
The practical evidence has been confusing. Some studies find that ORMs produce reasoning quality comparable to PRMs. Others find degradation in reasoning faithfulness despite maintained answer accuracy. The RLVR paper attempts to resolve this confusion by identifying the conditions under which outcome-only reward does and does not incentivize correct reasoning.
The Theoretical Result
The paper's central theoretical contribution, as stated in the abstract, is a proof that GRPO with binary verifiable rewardsโrewards that simply check whether the final answer matches the ground truthโimplicitly incentivizes correct chain-of-thought reasoning.
The mechanism works as follows. GRPO updates the model by comparing outputs within a group: for the same problem, multiple candidate solutions are generated, and the policy gradient pushes probability mass toward solutions that received higher reward (correct answers) and away from those that received lower reward (incorrect answers).
The key insight is about what distinguishes correct-answer solutions from incorrect-answer solutions within the model's own generation distribution. According to the abstract, the critical condition is that the base LLM can distinguish correct from incorrect reasoning chains through strong pretraining. When this condition holds, correct reasoning chains are more likely to produce correct answers than incorrect reasoning chains are. Consequently, the set of solutions receiving positive reward (correct final answers) is enriched for correct reasoning, and the set receiving negative reward is enriched for incorrect reasoning.
The GRPO gradient, by amplifying probability of correct-answer solutions and suppressing incorrect-answer solutions, therefore implicitly amplifies the probability of correct reasoning chains and suppresses incorrect onesโeven though the reward signal contains no information about reasoning quality.
Why the Base Model Matters
The condition identified in the abstractโthat the base LLM must be able to distinguish correct from incorrect reasoning through strong pretrainingโis not a trivial assumption. It implies that the base model already has latent knowledge of what constitutes valid reasoning, even if it does not reliably produce valid reasoning in practice.
This is plausible for large models pretrained on extensive corpora that include mathematical proofs, logical arguments, scientific papers, and other reasoning-heavy text. Through pretraining, these models develop internal representations that correlate with reasoning validity. The RL training does not create reasoning ability from scratch; it amplifies a latent signal that pretraining established.
This framing also explains why the approach might fail for smaller or less capable base models: if the base model cannot distinguish good from bad reasoning, then correct answers will be equally likely to arise from correct and incorrect reasoning chains, and the GRPO gradient will not preferentially amplify correct reasoning.
Critical Analysis: Claims and Evidence
<
| Claim | Source | Verdict |
|---|
| GRPO with binary verifiable rewards implicitly incentivizes correct chain-of-thought | Abstract, theoretical proof | โ
Supported โ theoretical result with identified conditions |
| The mechanism requires the base LLM to distinguish correct from incorrect reasoning | Abstract, stated condition | โ
Explicitly stated as a necessary condition |
| GRPO gradient automatically amplifies correct CoT probability | Abstract | โ
Follows from the theoretical framework |
| Outcome-only reward is sufficient to replace process reward for reasoning | Implication of the result | โ ๏ธ Conditional โ holds only when the base model satisfies the distinguishability condition |
| This explains why DeepSeek-R1 and similar models develop coherent reasoning | Contextual interpretation | โ ๏ธ Plausible connection but not directly claimed in the abstract |
The theoretical nature of the contribution is both a strength and a limitation. It provides a formal explanation for an empirically observed phenomenon, which is valuable. But theoretical proofs in machine learning often rely on assumptions (e.g., convergence conditions, distribution properties) that may not hold precisely in practice. The gap between the theorem's conditions and real training dynamics is worth scrutinizing.
Open Questions
Threshold for the base model condition. How strong must the base model's pretraining be for the distinguishability condition to hold? Is there a measurable thresholdโa perplexity score, a benchmark performance levelโbelow which outcome-only RL will fail to incentivize correct reasoning?Reasoning faithfulness vs. reasoning correctness. The result addresses whether the probability of correct reasoning increases. It does not directly address whether the model's reasoning traces faithfully represent its internal computation. A model could produce text that looks like correct reasoning while computing the answer through different internal mechanisms.Domain dependence. Mathematical reasoning has clean verifiabilityโanswers are objectively right or wrong. For domains where answer verification is noisy or ambiguous (scientific reasoning, ethical judgment, open-ended analysis), does the theoretical result extend?Scaling dynamics. Does the implicit incentive for correct reasoning strengthen or weaken as training progresses? If the model becomes very good at producing correct answers, the gradient signal distinguishing correct from incorrect reasoning may diminish.What This Means for Your Research
For practitioners training reasoning models, the RLVR result provides theoretical grounding for the empirically successful approach of using outcome-only rewards. If your base model is sufficiently capable, you may not need the expense of process-level annotation.
For theorists, the result opens a productive line of inquiry: characterizing exactly when and why sparse reward signals produce structured intermediate behavior. This connects to broader questions about implicit regularization in neural network training.
For those concerned about reasoning faithfulness and safety, the result is double-edged. It explains why reasoning emerges, but the mechanism depends on a correlation between correct reasoning and correct answersโa correlation that adversarial problems or distributional shift could break.
Explore related work through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ฌธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
RLVR ์ญ์ค: ๋ต๋ง ํ์ธํด๋ ์ถ๋ก ์ด ์ฌ๋ฐ๋ฅด๊ฒ ๋๋ ์ด์
์ถ๋ก LLM ์ปค๋ฎค๋ํฐ์์ ์กฐ์ฉํ ๋
ผ๋์ด ๋์ด์จ ํผ์ฆ์ด ํ๋ ์๋ค. ๊ฐํํ์ต์ผ๋ก ๋ชจ๋ธ์ ํ๋ จ์ํค๋, ์ต์ข
๋ต์ด ๋ง์ ๋ ๋ณด์์ ์ฃผ๊ณ ํ๋ฆด ๋ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ๋ค๊ณ ํ์. ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ ์ ํ ๊ฒ์ฌํ์ง ์๋๋ค. ์ข์ ์ถ๋ก ์ ๋ณด์์ ์ฃผ๊ฑฐ๋ ๋์ ์ถ๋ก ์ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ์ง๋ ์๋๋ค. ์ค์ง ์ถ๋ ฅ๋ง ํ์ธํ๋ค.
์์์ ์ผ๋ก๋ ์ด๋ฌํ ๋ฐฉ์์ด ๋ณด์์ ์
์ฉํ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ผ ๊ฒ ๊ฐ๋ค. ์ฆ, ์ง๋ฆ๊ธธ์ ์ฐพ๊ฑฐ๋, ๋ต์ ํจํด์ ์๊ธฐํ๊ฑฐ๋, ๊ฒฐํจ ์๋ ๋
ผ๋ฆฌ๋ก ์ฐ์ฐํ ์ ๋ต์ ๋๋ฌํ๋ ์์ผ๋ก ๋ง์ด๋ค. ์ถ๋ก ์ฌ์ฌ์ ์ ํ๋๊ฑฐ๋ ์ฅ์์ ์ผ๋ก ๋ณํด์ผ ํ๋คโ์กด์ฌํ์ง๋ง ๊ธฐ๋ฅํ์ง ์๋ ํํ๋ก.
๊ทธ๋ฌ๋ ๊ฒฝํ์ ์ผ๋ก, DeepSeek-R1์ ๋น๋กฏํ ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ค์ ์ผ๊ด๋ ๋จ๊ณ๋ณ ์ถ๋ก ์ ๋ฐ์ ์ํจ๋ค. ์ฌ๊ณ ์ ์ฌ์ฌ์ ๋ง์นจ ์ ๋ต์์ ๋๋๋ ๋ฌด์์ ๋ณดํ์ด ์๋๋ค. ๊ทธ๊ฒ์ ๋
ผ๋ฆฌ์ ๊ตฌ์กฐ, ์๊ธฐ ์์ , ๊ฒ์ฆ ๋จ๊ณ๋ฅผ ํฌํจํ๋ค. ์ด๋ป๊ฒ ์ด๋ฐ ์ผ์ด ๊ฐ๋ฅํ๊ฐ?
RLVR ๋
ผ๋ฌธ(2025)์ ์ด์ ๋ํ ์ด๋ก ์ ๋ต์ ์ ์ํ๋ค. ํน์ ํ๊ณ ์๋ณ ๊ฐ๋ฅํ ์กฐ๊ฑด ํ์์, ์ด์ง ๊ฒ์ฆ ๊ฐ๋ฅ ๋ณด์์ ์ฌ์ฉํ GRPO(Group Relative Policy Optimization)๋ ์ฌ๋ฐ๋ฅธ chain-of-thought ์ถ๋ก ์ ์๋ฌต์ ์ผ๋ก ์ฅ๋ คํ๋ค๋ ๊ฒ์ด๋ค. ๋ช
์์ ์ธ ๊ณผ์ ๊ฐ๋
์ด ํ์ํ๋ค๊ณ ์ฌ๊ฒจ์ก๋ ์ญํ ์ ๊ทธ๋๋์ธํธ๊ฐ ์ํํ๋ค.
์ฐ๊ตฌ ํํฉ
๊ฒฐ๊ณผ ๊ธฐ๋ฐ ๋ณด์๊ณผ ๊ณผ์ ๊ธฐ๋ฐ ๋ณด์ ์ฌ์ด์ ๊ธด์ฅ์ ์ถ๋ก ๋ชจ๋ธ ๊ฐ๋ฐ์์ ํต์ฌ์ ์ธ ๋
ผ์์ด์๋ค. ๊ณผ์ ๋ณด์ ๋ชจ๋ธ(PRM)์ ๊ฐ ์ถ๋ก ๋จ๊ณ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ๊ฐํ์ฌ, ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ์ง์ ๋ณด์ํ๋ ๋ฐ์ง ๊ฐ๋
์ ์ ๊ณตํ๋ค. ๋จ์ ์ ๋น์ฉ์ด๋ค. ๋จ๊ณ ์์ค์ ์ฃผ์์ ์ ๋ฌธ๊ฐ์ ์ธ๊ฐ ํ๋จ์ ์๊ตฌํ๋ฉฐ, ๋ณ๋์ ๋ณด์ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ ์์ฒด๊ฐ ๊ณ ์ ํ ์คํจ ์ ํ์ ๋์
ํ๋ค.
๊ฒฐ๊ณผ ๋ณด์ ๋ชจ๋ธ(ORM)์ ์ต์ข
๋ต๋ง ํ์ธํ๋ค. ๊ตฌ์ฑ ๋น์ฉ์ด ์ ๋ ดํ๋คโ์ํ ๋ฌธ์ ์ ๊ฒฝ์ฐ ๋ต์ด ๋ง๊ฑฐ๋ ํ๋ฆฌ๊ฑฐ๋ ํ๋ฉฐ, ์๋์ผ๋ก ๊ฒ์ฆ ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ก ์ ์ฐ๋ ค๋ ๋ณด์ ํดํน์ด๋ค. ๋ชจ๋ธ์ด ์ง์ ํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ์ง ์๊ณ ๋ ํ๋ฉด์ ํจํด๊ณผ ์ ๋ต ์ฌ์ด์ ์ฐ๊ด์ฑ์ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ด๋ค.
์ค์ฆ์ ์ฆ๊ฑฐ๋ ํผ๋์ค๋ฌ์ ๋ค. ์ผ๋ถ ์ฐ๊ตฌ์์๋ ORM์ด PRM์ ํ์ ํ๋ ์ถ๋ก ํ์ง์ ์์ฑํ๋ค๊ณ ๋ฐํ๋ค. ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ๋ต์ ์ ํ๋๊ฐ ์ ์ง๋จ์๋ ๋ถ๊ตฌํ๊ณ ์ถ๋ก ์ ์ถฉ์ค๋๊ฐ ์ ํ๋๋ค๊ณ ๋ฐํ๋ค. RLVR ๋
ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ง์ ๋ณด์์ด ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ์ฅ๋ คํ๋ ์กฐ๊ฑด๊ณผ ๊ทธ๋ ์ง ์์ ์กฐ๊ฑด์ ์๋ณํจ์ผ๋ก์จ ์ด๋ฌํ ํผ๋์ ํด์ํ๊ณ ์ ํ๋ค.
์ด๋ก ์ ๊ฒฐ๊ณผ
๋
ผ๋ฌธ์ ์ด๋ก์ ๋ช
์๋ ํต์ฌ ์ด๋ก ์ ๊ธฐ์ฌ๋, ์ต์ข
๋ต์ด ์ ๋ต๊ณผ ์ผ์นํ๋์ง ๋จ์ํ ํ์ธํ๋ ๋ณด์์ธ ์ด์ง ๊ฒ์ฆ ๊ฐ๋ฅ ๋ณด์์ ์ฌ์ฉํ GRPO๊ฐ ์ฌ๋ฐ๋ฅธ chain-of-thought ์ถ๋ก ์ ์๋ฌต์ ์ผ๋ก ์ฅ๋ คํ๋ค๋ ์ฆ๋ช
์ด๋ค.
๋ฉ์ปค๋์ฆ์ ๋ค์๊ณผ ๊ฐ์ด ์๋ํ๋ค. GRPO๋ ๊ทธ๋ฃน ๋ด ์ถ๋ ฅ์ ๋น๊ตํ์ฌ ๋ชจ๋ธ์ ์
๋ฐ์ดํธํ๋ค. ๋์ผํ ๋ฌธ์ ์ ๋ํด ์ฌ๋ฌ ํ๋ณด ํด๋ต์ด ์์ฑ๋๊ณ , ์ ์ฑ
๊ทธ๋๋์ธํธ๋ ๋ ๋์ ๋ณด์์ ๋ฐ์ ํด๋ต(์ ๋ต)์ ํฅํด ํ๋ฅ ์ง๋์ ๋ฐ๊ณ , ๋ ๋ฎ์ ๋ณด์์ ๋ฐ์ ํด๋ต(์ค๋ต)์ผ๋ก๋ถํฐ ๋ฉ๋ฆฌ ๋ฐ์ด๋ธ๋ค.
ํต์ฌ ํต์ฐฐ์ ๋ชจ๋ธ ์์ฒด์ ์์ฑ ๋ถํฌ ๋ด์์ ์ ๋ต ํด๋ต๊ณผ ์ค๋ต ํด๋ต์ ๊ตฌ๋ณํ๋ ๊ฒ์ด ๋ฌด์์ธ์ง์ ๊ดํ ๊ฒ์ด๋ค. ์ด๋ก์ ๋ฐ๋ฅด๋ฉด, ๊ฒฐ์ ์ ์ธ ์กฐ๊ฑด์ ๊ธฐ๋ฐ LLM์ด ๊ฐ๋ ฅํ ์ฌ์ ํ๋ จ์ ํตํด ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ฌ์ฌ๊ณผ ์ฌ๋ฐ๋ฅด์ง ์์ ์ถ๋ก ์ฌ์ฌ์ ๊ตฌ๋ณํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด ์กฐ๊ฑด์ด ์ถฉ์กฑ๋ ๋, ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ฌ์ฌ์ ์ฌ๋ฐ๋ฅด์ง ์์ ์ถ๋ก ์ฌ์ฌ๋ณด๋ค ๋ ๋์ ํ๋ฅ ๋ก ์ ๋ต์ ์์ฑํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์์ ๋ณด์์ ๋ฐ๋ ํด๋ต ์งํฉ(์ต์ข
๋ต์ด ์ ๋ต์ธ ๊ฒ๋ค)์๋ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ด ํ๋ถํ๊ฒ ํฌํจ๋๊ณ , ์์ ๋ณด์์ ๋ฐ๋ ์งํฉ์๋ ์ฌ๋ฐ๋ฅด์ง ์์ ์ถ๋ก ์ด ํ๋ถํ๊ฒ ํฌํจ๋๋ค.
GRPO ๊ทธ๋๋์ธํธ๋ ์ ๋ต ์๋ฃจ์
์ ํ๋ฅ ์ ์ฆํญํ๊ณ ์ค๋ต ์๋ฃจ์
์ ํ๋ฅ ์ ์ต์ ํจ์ผ๋ก์จ, ๋ณด์ ์ ํธ๊ฐ ์ถ๋ก ํ์ง์ ๊ดํ ์ ๋ณด๋ฅผ ์ ํ ํฌํจํ์ง ์์์๋ ๋ถ๊ตฌํ๊ณ , ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ฒด์ธ์ ํ๋ฅ ์ ์๋ฌต์ ์ผ๋ก ์ฆํญํ๊ณ ์๋ชป๋ ์ถ๋ก ์ฒด์ธ์ ํ๋ฅ ์ ์ต์ ํ๋ค.
๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ค์ํ ์ด์
์ด๋ก์์ ์ ์๋ ์กฐ๊ฑดโ๊ธฐ๋ฐ LLM์ด ๊ฐ๋ ฅํ ์ฌ์ ํ์ต์ ํตํด ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ณผ ์๋ชป๋ ์ถ๋ก ์ ๊ตฌ๋ณํ ์ ์์ด์ผ ํ๋ค๋ ๊ฒโ์ ์ฌ์ํ ๊ฐ์ ์ด ์๋๋ค. ์ด๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ค์ ๋ก ์ ํจํ ์ถ๋ก ์ ์์ ์ ์ผ๋ก ์์ฑํ์ง ๋ชปํ๋๋ผ๋, ์ ํจํ ์ถ๋ก ์ ๊ตฌ์ฑํ๋ ์์์ ๋ํ ์ ์ฌ์ ์ง์์ ์ด๋ฏธ ๋ณด์ ํ๊ณ ์์์ ์์ฌํ๋ค.
์ด๋ ์ํ์ ์ฆ๋ช
, ๋
ผ๋ฆฌ์ ๋
ผ์ฆ, ๊ณผํ ๋
ผ๋ฌธ, ๊ทธ ๋ฐ์ ์ถ๋ก ์ง์ฝ์ ํ
์คํธ๋ฅผ ํฌํจํ๋ ๋ฐฉ๋ํ ์ฝํผ์ค๋ก ์ฌ์ ํ์ต๋ ๋ํ ๋ชจ๋ธ์ ์์ด ์ถฉ๋ถํ ์ค๋๋ ฅ ์๋ ์ฃผ์ฅ์ด๋ค. ์ฌ์ ํ์ต์ ํตํด ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ถ๋ก ์ ์ ํจ์ฑ๊ณผ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ๋ ๋ด๋ถ ํํ์ ๋ฐ์ ์ํจ๋ค. RL ํ์ต์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒ์๋ถํฐ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ์ ํ์ต์ด ํ๋ฆฝํ ์ ์ฌ์ ์ ํธ๋ฅผ ์ฆํญํ๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ๊ด์ ์ ์ํ ๋ชจ๋ธ์ด๋ ์ญ๋์ด ๋ฎ์ ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ํด๋น ์ ๊ทผ๋ฒ์ด ์คํจํ ์ ์๋ ์ด์ ๋ ์ค๋ช
ํด ์ค๋ค. ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ข์ ์ถ๋ก ๊ณผ ๋์ ์ถ๋ก ์ ๊ตฌ๋ณํ์ง ๋ชปํ๋ค๋ฉด, ์ ๋ต์ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ฒด์ธ๊ณผ ์๋ชป๋ ์ถ๋ก ์ฒด์ธ ๋ชจ๋์์ ๋๋ฑํ๊ฒ ๋์ถ๋ ๊ฒ์ด๋ฉฐ, GRPO ๊ทธ๋๋์ธํธ๋ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ์ ํ์ ์ผ๋ก ์ฆํญํ์ง ๋ชปํ๊ฒ ๋๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ์ถ์ฒ | ํ์ |
|---|
| ์ด์ง ๊ฒ์ฆ ๊ฐ๋ฅ ๋ณด์์ ์ฌ์ฉํ GRPO๋ ์๋ฌต์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ chain-of-thought๋ฅผ ์ ๋ํ๋ค | ์ด๋ก, ์ด๋ก ์ ์ฆ๋ช
| โ
์ง์ง๋จ โ ์กฐ๊ฑด์ด ๋ช
์๋ ์ด๋ก ์ ๊ฒฐ๊ณผ |
| ํด๋น ๋ฉ์ปค๋์ฆ์ ๊ธฐ๋ฐ LLM์ด ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ณผ ์๋ชป๋ ์ถ๋ก ์ ๊ตฌ๋ณํ ์ ์์ด์ผ ํ๋ค | ์ด๋ก, ๋ช
์๋ ์กฐ๊ฑด | โ
ํ์ ์กฐ๊ฑด์ผ๋ก ๋ช
์๋จ |
| GRPO ๊ทธ๋๋์ธํธ๋ ์ฌ๋ฐ๋ฅธ CoT ํ๋ฅ ์ ์๋์ผ๋ก ์ฆํญํ๋ค | ์ด๋ก | โ
์ด๋ก ์ ํ๋ ์์ํฌ์์ ๋์ถ๋จ |
| ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ๋ณด์๋ง์ผ๋ก ์ถ๋ก ์์ ๊ณผ์ ๋ณด์์ ๋์ฒดํ๊ธฐ์ ์ถฉ๋ถํ๋ค | ๊ฒฐ๊ณผ์ ํจ์ | โ ๏ธ ์กฐ๊ฑด๋ถ โ ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๊ตฌ๋ณ ๊ฐ๋ฅ์ฑ ์กฐ๊ฑด์ ๋ง์กฑํ ๋๋ง ์ฑ๋ฆฝ |
| ์ด๊ฒ์ด DeepSeek-R1 ๋ฐ ์ ์ฌ ๋ชจ๋ธ์ด ์ผ๊ด๋ ์ถ๋ก ์ ๋ฐ์ ์ํค๋ ์ด์ ๋ฅผ ์ค๋ช
ํ๋ค | ๋งฅ๋ฝ์ ํด์ | โ ๏ธ ์ค๋๋ ฅ ์๋ ์ฐ๊ด์ฑ์ด์ง๋ง ์ด๋ก์์ ์ง์ ์ฃผ์ฅ๋์ง๋ ์์ |
์ด๋ก ์ ๊ธฐ์ฌ์ ํน์ฑ์ ๊ฐ์ ์ธ ๋์์ ํ๊ณ์ด๊ธฐ๋ ํ๋ค. ์ด๋ ๊ฒฝํ์ ์ผ๋ก ๊ด์ฐฐ๋ ํ์์ ๋ํ ํ์์ ์ค๋ช
์ ์ ๊ณตํ๋ค๋ ์ ์์ ๊ฐ์น ์๋ค. ๊ทธ๋ฌ๋ ๋จธ์ ๋ฌ๋์์์ ์ด๋ก ์ ์ฆ๋ช
์ ์ค์ ํ๊ฒฝ์์ ์ ํํ ์ฑ๋ฆฝํ์ง ์์ ์ ์๋ ๊ฐ์ (์: ์๋ ด ์กฐ๊ฑด, ๋ถํฌ ์์ฑ)์ ์์กดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ ๋ฆฌ์ ์กฐ๊ฑด๊ณผ ์ค์ ํ์ต ์ญํ ์ฌ์ด์ ๊ฐ๊ทน์ ๋ฉด๋ฐํ ๊ฒํ ํ ํ์๊ฐ ์๋ค.
๋ฏธํด๊ฒฐ ๊ณผ์
๊ธฐ๋ฐ ๋ชจ๋ธ ์กฐ๊ฑด์ ์๊ณ๊ฐ. ๊ตฌ๋ณ ๊ฐ๋ฅ์ฑ ์กฐ๊ฑด์ด ์ฑ๋ฆฝํ๋ ค๋ฉด ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ด ์ผ๋ง๋ ๊ฐ๋ ฅํด์ผ ํ๋๊ฐ? ๊ฒฐ๊ณผ ๊ธฐ๋ฐ RL์ด ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ์ ๋ํ๋ ๋ฐ ์คํจํ๋ ๊ธฐ์ค์ด ๋๋, ์ธก์ ๊ฐ๋ฅํ ์๊ณ๊ฐโํผํ๋ ์ํฐ ์ ์ ๋๋ ๋ฒค์น๋งํฌ ์ฑ๋ฅ ์์คโ์ด ์กด์ฌํ๋๊ฐ?์ถ๋ก ์ ์ถฉ์ค์ฑ vs. ์ถ๋ก ์ ์ ํ์ฑ. ํด๋น ๊ฒฐ๊ณผ๋ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ํ๋ฅ ์ด ์ฆ๊ฐํ๋์ง ์ฌ๋ถ๋ฅผ ๋ค๋ฃฌ๋ค. ๋ชจ๋ธ์ ์ถ๋ก ํ์ ์ด ๋ด๋ถ ๊ณ์ฐ์ ์ถฉ์คํ ๋ฐ์ํ๋์ง ์ฌ๋ถ๋ ์ง์ ์ ์ผ๋ก ๋ค๋ฃจ์ง ์๋๋ค. ๋ชจ๋ธ์ ์ค์ ๋ก๋ ๋ค๋ฅธ ๋ด๋ถ ๋ฉ์ปค๋์ฆ์ ํตํด ๋ต์ ๊ณ์ฐํ๋ฉด์๋ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ฒ๋ผ ๋ณด์ด๋ ํ
์คํธ๋ฅผ ์์ฑํ ์ ์๋ค.๋๋ฉ์ธ ์์กด์ฑ. ์ํ์ ์ถ๋ก ์ ๋ช
ํํ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง๋คโ๋ต์ด ๊ฐ๊ด์ ์ผ๋ก ๋ง๊ฑฐ๋ ํ๋ฆฌ๋ค. ๋ต ๊ฒ์ฆ์ด ๋ถ๋ถ๋ช
ํ๊ฑฐ๋ ๋ชจํธํ ๋๋ฉ์ธ(๊ณผํ์ ์ถ๋ก , ์ค๋ฆฌ์ ํ๋จ, ๊ฐ๋ฐฉํ ๋ถ์)์์๋ ์ด๋ก ์ ๊ฒฐ๊ณผ๊ฐ ํ์ฅ๋ ์ ์๋๊ฐ?
์ค์ผ์ผ๋ง ์ญํ. ์ฌ๋ฐ๋ฅธ ์ถ๋ก ์ ๋ํ ์๋ฌต์ ์ธ์ผํฐ๋ธ๋ ํ๋ จ์ด ์งํ๋จ์ ๋ฐ๋ผ ๊ฐํด์ง๋๊ฐ, ์๋๋ฉด ์ฝํด์ง๋๊ฐ? ๋ชจ๋ธ์ด ์ ๋ต์ ์์ฑํ๋ ๋ฐ ๋งค์ฐ ๋ฅ์ํด์ง๋ฉด, ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ณผ ์๋ชป๋ ์ถ๋ก ์ ๊ตฌ๋ณํ๋ ๊ฒฝ์ฌ ์ ํธ๊ฐ ์ฝํด์ง ์ ์๋ค.์ฐ๊ตฌ์ ๋ํ ์์ฌ์
์ถ๋ก ๋ชจ๋ธ์ ํ๋ จํ๋ ์ค๋ฌด์๋ค์๊ฒ, RLVR ๊ฒฐ๊ณผ๋ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ๋ณด์๋ง์ ์ฌ์ฉํ๋ ๊ฒฝํ์ ์ผ๋ก ์ฑ๊ณตํ ์ ๊ทผ๋ฒ์ ๋ํ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค. ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ ๋ฅํ๋ค๋ฉด, ํ๋ก์ธ์ค ์์ค์ ์ฃผ์ ๋น์ฉ์ด ํ์ํ์ง ์์ ์ ์๋ค.
์ด๋ก ๊ฐ๋ค์๊ฒ, ์ด ๊ฒฐ๊ณผ๋ ์์ฐ์ ์ธ ํ๊ตฌ์ ๋ฐฉํฅ์ ์ด์ด์ค๋ค: ํฌ์ ๋ณด์ ์ ํธ๊ฐ ์ธ์ , ์ ๊ตฌ์กฐํ๋ ์ค๊ฐ ํ๋์ ์์ฑํ๋์ง๋ฅผ ์ ํํ ๊ท๋ช
ํ๋ ๊ฒ์ด๋ค. ์ด๋ ์ ๊ฒฝ๋ง ํ๋ จ์์์ ์๋ฌต์ ์ ๊ทํ์ ๊ดํ ๋ ๋์ ์ง๋ฌธ๋ค๊ณผ ์ฐ๊ฒฐ๋๋ค.
์ถ๋ก ์ ์ถฉ์ค์ฑ๊ณผ ์์ ์ฑ์ ๊ด์ฌ ์๋ ์ด๋ค์๊ฒ, ์ด ๊ฒฐ๊ณผ๋ ์๋ฉด์ ์ด๋ค. ์ถ๋ก ์ด ์ ์ถํํ๋์ง๋ฅผ ์ค๋ช
ํ์ง๋ง, ๊ทธ ๋ฉ์ปค๋์ฆ์ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ณผ ์ ๋ต ์ฌ์ด์ ์๊ด๊ด๊ณ์ ์์กดํ๋ฉฐ, ์ด ์๊ด๊ด๊ณ๋ ์ ๋์ ๋ฌธ์ ๋ ๋ถํฌ ๋ณํ์ ์ํด ๊นจ์ง ์ ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.