This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
End-to-end autonomous drivingโmapping raw sensor inputs directly to control commands without hand-engineered intermediate representationsโhas been dominated by imitation learning (IL): train a neural network to mimic expert human drivers. This paradigm has a well-known failure mode. IL systems learn the distribution of expert behavior, not the objective of safe driving. When the vehicle encounters a situation outside the training distributionโa construction zone, an aggressive merging vehicle, a child running into the streetโthe model has no mechanism to reason about consequences. It can only replay the nearest memorized behavior, which may be catastrophically wrong.
Reinforcement learning (RL) offers a different philosophy: instead of imitating demonstrations, learn a policy that maximizes a reward signal encoding safe, efficient driving. In principle, RL can discover driving strategies that exceed human performance by exploring and optimizing in simulation. In practice, RL for autonomous driving has been stymied by two problems: the expense of training in the real world (where crashes have real consequences) and the fidelity gap between simulation and reality (where a policy that drives perfectly in CARLA may fail on an actual road).
A wave of recent work is attacking both problems through world modelsโlearned simulators that generate realistic driving scenarios from neural representations of the physical world.
RAD: 3D Gaussian Splatting Meets Reinforcement Learning
Gao et al. (2025) introduce RAD (Reinforcement learning for Autonomous Driving), a framework that trains end-to-end driving policies using 3D Gaussian Splatting (3DGS) as the simulation backbone. With in its first monthsโa notable reception for an autonomous driving paperโRAD represents a new approach to the sim-to-real gap.
The core insight: traditional driving simulators (CARLA, nuScenes) render synthetic scenes that differ systematically from real-world sensor data in texture, lighting, object appearance, and sensor noise. 3DGS, by contrast, reconstructs photorealistic 3D scenes from real driving logs, enabling RL training in environments that are visually indistinguishable from the real world because they are the real worldโreconstructed, navigable, and augmentable.
RAD's architecture has three stages:
Scene reconstruction: Real driving logs are converted to 3DGS representations that enable novel-view rendering at any camera angle.
Closed-loop RL training: The driving policy (a vision transformer) interacts with the 3DGS environment, receiving rewards for safe lane-keeping, collision avoidance, and traffic rule compliance.
Real-world deployment: The trained policy transfers directly to the physical vehicle because the training and deployment visual distributions are matched.The results on the authors' custom 3DGS-based evaluation benchmark show meaningful improvements over IL baselines: a 3x lower collision rate compared to imitation learning approaches. Note that nuScenes data serves as input for scene reconstruction, not as the evaluation benchmark itself. These numbers are significant but the approach is still in its early stagesโevaluated on a custom benchmark rather than standardized public benchmarks.
World Model Alignment: Raw2Drive
Yang et al. (2025) address a subtler problem: even when world models are photorealistic, their dynamics may diverge from reality. A world model that renders beautiful images but simulates incorrect physics (e.g., wrong friction coefficients, unrealistic vehicle dynamics) will produce RL policies that exploit model artifacts rather than learning generalizable driving skills.
Raw2Drive tackles this with an "aligned world model" that is jointly trained on visual reconstruction and dynamics prediction, ensuring that the model's internal physics match real-world vehicle behavior. Published on arXiv the framework achieves state-of-the-art results on CARLA v2โa notably harder benchmark than CARLA v1, with more complex scenarios and stricter evaluation criteria.
Key technical contributions:
- Dynamics alignment loss: A regularization term that penalizes discrepancies between the world model's predicted state transitions and recorded real-world state transitions.
- Latent-space planning: Rather than rendering full images at each planning step, Raw2Drive plans in the world model's latent spaceโa compressed representation that is computationally efficient but retains task-relevant information.
- RL fine-tuning: After pre-training via imitation learning, the policy is fine-tuned with RL in the aligned world model, specifically targeting scenarios where IL fails (e.g., near-collisions, complex intersections).
Impartial World Models: AD-R1
Yan et al. (2025) identify a bias in world model-based RL that previous work overlooked: world models trained on expert driving logs learn to predict what happens when the car is driven well. They are poor at predicting what happens when the car makes a mistakeโprecisely the regime where RL training is most informative.
AD-R1 addresses this with an "impartial world model" trained on both expert and non-expert driving data, including near-crash scenarios and recovery maneuvers. With (early but growing), this work argues that the diversity of the world model's training data is at least as important as its visual fidelity.
The framework uses a curriculum-based RL approach:
Phase 1: Train on easy scenarios (straight roads, light traffic) where IL pre-training provides a good initialization.
Phase 2: Progressively introduce harder scenarios (dense traffic, adverse weather, construction zones) where the impartial world model generates realistic failure modes.
Phase 3: Adversarial scenario generation, where the world model actively creates challenging situations to stress-test the driving policy.This curriculum mimics how human drivers learn: easy roads first, highway merging later, ice and snow last. The key empirical finding is that Phase 3 (adversarial training) substantially reduces safety violations in long-tail scenarios compared to policies trained only on Phases 1 and 2โthe paper demonstrates this on a Risk Foreseeing Benchmark but does not report a single headline percentage in the abstract.
Adaptive Reasoning: AdaThinkDrive
Luo et al. (2025) take a different angle on the RL-for-driving problem: rather than improving the simulator, improve the reasoning of the driving agent. AdaThinkDrive integrates chain-of-thought (CoT) reasoning from vision-language models with RL fine-tuning, enabling the driving agent to articulate its decision-making process before executing actions.
With , this work addresses a practical concern: in simple driving scenarios (straight road, no traffic), chain-of-thought reasoning adds latency without benefit. AdaThinkDrive uses RL to learn when to thinkโengaging CoT reasoning only in complex situations that warrant deliberation, and bypassing it for routine driving.
The adaptive reasoning mechanism achieves a useful balance: in complex scenarios, the CoT module explains the agent's decision (e.g., "pedestrian detected at crosswalk, reducing speed, checking oncoming lane before deviation"), improving both performance and interpretability. In simple scenarios, the agent acts reflexively, maintaining the low latency required for real-time control.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| 3DGS-based RL improves over IL for driving | 3x lower collision rate on custom 3DGS benchmark (Gao et al.) | โ
Supported |
| Aligned world models reduce sim-to-real gap | CARLA v2 state-of-the-art (Yang et al.) | โ
Supported (simulation benchmark) |
| Impartial world models improve long-tail handling | Substantial reduction in safety violations on Risk Foreseeing Benchmark (Yan et al.) | โ
Supported (simulation) |
| Adaptive CoT improves complex-scenario reasoning | Interpretable decisions with maintained latency (Luo et al.) | โ
Supported |
| RL-trained policies are ready for public roads | No real-world deployment studies published | โ Refuted (currently) |
The Safety Verification Gap
The elephant in the room for all RL-based autonomous driving work is safety verification. Traditional safety engineering relies on formal methods, fault trees, and failure mode analysisโtools that require explicit, interpretable system specifications. An RL-trained neural network policy provides none of these. It is a black box that maps sensor inputs to steering angles through millions of learned parameters.
How do you certify that such a system is safe enough for public roads? The regulatory answer is unclear. ISO 21448 (Safety of the Intended Functionality) provides a framework for handling insufficiencies in AI-based driving functions, but it was designed for modular perception-planning-control architectures, not end-to-end learned policies. Adapting safety standards to RL-trained systems is an open regulatory and engineering challenge.
Open Questions and Future Directions
Can world models generalize to unseen cities? Current results are benchmarked on specific datasets (nuScenes: Boston, Singapore; CARLA: synthetic). Generalization to novel urban layouts, driving conventions (left-hand vs. right-hand traffic), and road conditions is untested.What reward function is "safe enough"? RL performance is only as good as its reward function. Encoding the full complexity of safe drivingโincluding edge cases like emergency vehicles, road debris, and unusual pedestrian behaviorโinto a scalar reward signal is a formidable design challenge.How do we handle the liability question? If an RL-trained vehicle causes an accident due to a scenario not covered by its training reward, who is liable? The manufacturer? The RL algorithm designer? The training data provider?Can RL and IL be combined optimally? Several of these works use IL for pre-training and RL for fine-tuning. Is there a principled framework for determining which driving behaviors should be learned from demonstration versus discovered through optimization?What is the compute cost of 3DGS-based training? RAD requires reconstructing 3D scenes from driving logsโa process that is computationally expensive. Can the approach scale to the millions of driving hours needed for a production system?Implications for the Autonomous Driving Industry
The shift from imitation learning to reinforcement learning in autonomous driving mirrors a broader trend in AI: moving from systems that replicate human behavior to systems that optimize for objectives. This shift promises better handling of edge cases, more robust safety properties, and ultimately superior driving performance.
But it also introduces new risks. An RL policy that optimizes for a poorly specified reward function may discover strategies that are technically "optimal" but practically dangerousโcutting corners too aggressively, braking too late to maximize throughput, or exploiting gaps in traffic that a human driver would consider too narrow. Reward engineering for autonomous driving may prove to be as difficult as the driving problem itself.
The field is making rapid progress. The for RAD, the CARLA v2 results from Raw2Drive, and the adaptive reasoning of AdaThinkDrive all represent tangible advances. What remains is the hardest part: translating simulation benchmarks into real-world safetyโa challenge that no amount of photorealistic rendering can fully address.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
๊ฐํํ์ต ๊ธฐ๋ฐ ์๋-ํฌ-์๋ ์์จ์ฃผํ: ์๋ ๋ชจ๋ธ์ด ์๋ฎฌ๋ ์ด์
-์ค์ ํ๊ฒฝ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ ์ ์๋๊ฐ?
์์ ์ผ์ ์
๋ ฅ์ ์์์
์ผ๋ก ์ค๊ณ๋ ์ค๊ฐ ํํ ์์ด ์ ์ด ๋ช
๋ น์ผ๋ก ์ง์ ๋งคํํ๋ ์๋-ํฌ-์๋(end-to-end) ์์จ์ฃผํ์ ๋ชจ๋ฐฉ ํ์ต(imitation learning, IL)์ด ์ฃผ๋ํด ์๋ค. ์ฆ, ์ ๋ฌธ ์ธ๊ฐ ์ด์ ์๋ฅผ ๋ชจ๋ฐฉํ๋๋ก ์ ๊ฒฝ๋ง์ ํ์ต์ํค๋ ๋ฐฉ์์ด๋ค. ์ด ํจ๋ฌ๋ค์์๋ ์ ์๋ ค์ง ์คํจ ์ ํ์ด ์กด์ฌํ๋ค. IL ์์คํ
์ ์์ ์ด์ ์ ๋ชฉํ๊ฐ ์๋๋ผ ์ ๋ฌธ๊ฐ ํ๋์ ๋ถํฌ๋ฅผ ํ์ตํ๋ค. ์ฐจ๋์ด ํ์ต ๋ถํฌ ๋ฐ์ ์ํฉโ๊ณต์ฌ ๊ตฌ์ญ, ๊ณต๊ฒฉ์ ์ผ๋ก ๋ผ์ด๋๋ ์ฐจ๋, ๋๋ก๋ก ๋ฐ์ด๋๋ ์ด๋ฆฐ์ดโ์ ๋ง๋ฌ์ ๋, ๋ชจ๋ธ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ก ํ๋ ๋ฉ์ปค๋์ฆ์ด ์๋ค. ๊ฐ์ฅ ๊ฐ๊น์ด ๊ธฐ์ต๋ ํ๋์ ์ฌํํ ์ ์์ ๋ฟ์ด๋ฉฐ, ์ด๋ ์น๋ช
์ ์ธ ์ค๋ฅ๋ก ์ด์ด์ง ์ ์๋ค.
๊ฐํํ์ต(reinforcement learning, RL)์ ๋ค๋ฅธ ์ฒ ํ์ ์ ์ํ๋ค. ์์ฐ์ ๋ชจ๋ฐฉํ๋ ๋์ , ์์ ํ๊ณ ํจ์จ์ ์ธ ์ฃผํ์ ์ธ์ฝ๋ฉํ ๋ณด์ ์ ํธ๋ฅผ ์ต๋ํํ๋ ์ ์ฑ
์ ํ์ตํ๋ ๊ฒ์ด๋ค. ์์น์ ์ผ๋ก RL์ ์๋ฎฌ๋ ์ด์
์์ ํ์ํ๊ณ ์ต์ ํํจ์ผ๋ก์จ ์ธ๊ฐ ์ฑ๋ฅ์ ๋ฐ์ด๋๋ ์ฃผํ ์ ๋ต์ ๋ฐ๊ฒฌํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ก ์์จ์ฃผํ์ ๋ํ RL์ ๋ ๊ฐ์ง ๋ฌธ์ ๋ก ์ธํด ์ด๋ ค์์ ๊ฒช์ด ์๋ค. ์ค์ ์ธ๊ณ์์์ ํ์ต ๋น์ฉ(์ถฉ๋์ด ์ค์ง์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ ํ๊ฒฝ)๊ณผ ์๋ฎฌ๋ ์ด์
๊ณผ ํ์ค ์ฌ์ด์ ์ถฉ์ค๋ ๊ฒฉ์ฐจ(CARLA์์ ์๋ฒฝํ๊ฒ ์ฃผํํ๋ ์ ์ฑ
์ด ์ค์ ๋๋ก์์๋ ์คํจํ ์ ์๋ ํ๊ฒฝ)๊ฐ ๊ทธ๊ฒ์ด๋ค.
์ต๊ทผ์ ์ผ๋ จ์ ์ฐ๊ตฌ๋ค์ ์๋ ๋ชจ๋ธ(world model)โ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ ๊ฒฝ ํํ์ผ๋ก๋ถํฐ ํ์ค์ ์ธ ์ฃผํ ์๋๋ฆฌ์ค๋ฅผ ์์ฑํ๋ ํ์ต๋ ์๋ฎฌ๋ ์ดํฐโ์ ํตํด ๋ ๋ฌธ์ ๋ชจ๋๋ฅผ ํด๊ฒฐํ๋ ค ํ๊ณ ์๋ค.
RAD: 3D ๊ฐ์ฐ์์ ์คํ๋ํ
๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉ
Gao et al. (2025)์ 3D ๊ฐ์ฐ์์ ์คํ๋ํ
(3D Gaussian Splatting, 3DGS)์ ์๋ฎฌ๋ ์ด์
๋ฐฑ๋ณธ์ผ๋ก ํ์ฉํ์ฌ ์๋-ํฌ-์๋ ์ฃผํ ์ ์ฑ
์ ํ์ตํ๋ ํ๋ ์์ํฌ์ธ RAD(Reinforcement learning for Autonomous Driving)๋ฅผ ์ ์ํ๋ค. ๊ณต๊ฐ ์ฒซ ๋ช ๋ฌ ๋ง์ ์๋นํ ์ฃผ๋ชฉ์ ๋ฐ์ RAD๋ ์์จ์ฃผํ ๋
ผ๋ฌธ์ผ๋ก์ ์ฃผ๋ชฉํ ๋งํ ๋ฐ์์ ์ด๋์ด ๋์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์
-์ค์ ํ๊ฒฝ ๊ฐ ๊ฒฉ์ฐจ์ ๋ํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค.
ํต์ฌ ํต์ฐฐ์ ๋ค์๊ณผ ๊ฐ๋ค. ๊ธฐ์กด ์ฃผํ ์๋ฎฌ๋ ์ดํฐ(CARLA, nuScenes)๋ ํ
์ค์ฒ, ์กฐ๋ช
, ๊ฐ์ฒด ์ธ๊ด, ์ผ์ ์ก์ ์ธก๋ฉด์์ ์ค์ ์ผ์ ๋ฐ์ดํฐ์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฅธ ํฉ์ฑ ์ฅ๋ฉด์ ๋ ๋๋งํ๋ค. ๋ฐ๋ฉด 3DGS๋ ์ค์ ์ฃผํ ๋ก๊ทธ๋ก๋ถํฐ ์ฌ์ค์ ์ธ 3D ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํจ์ผ๋ก์จ, ์ค์ ์ธ๊ณ ๊ทธ ์์ฒดโ์ฌ๊ตฌ์ฑ๋๊ณ , ํ์ ๊ฐ๋ฅํ๋ฉฐ, ์ฆ๊ฐ ๊ฐ๋ฅํโ์ ์๊ฐ์ ์ผ๋ก ๊ตฌ๋ณํ ์ ์๋ ํ๊ฒฝ์์ RL ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
RAD์ ์ํคํ
์ฒ๋ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค.
์ฅ๋ฉด ์ฌ๊ตฌ์ฑ: ์ค์ ์ฃผํ ๋ก๊ทธ๋ฅผ ์์์ ์นด๋ฉ๋ผ ๊ฐ๋์์ ์๋ก์ด ์์ ๋ ๋๋ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ 3DGS ํํ์ผ๋ก ๋ณํํ๋ค.
ํ์ ๋ฃจํ RL ํ์ต: ์ฃผํ ์ ์ฑ
(๋น์ ํธ๋์คํฌ๋จธ)์ด 3DGS ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ, ์์ ํ ์ฐจ์ ์ ์ง, ์ถฉ๋ ํํผ, ๊ตํต ๋ฒ๊ท ์ค์์ ๋ํ ๋ณด์์ ๋ฐ๋๋ค.
์ค์ ํ๊ฒฝ ๋ฐฐํฌ: ํ์ต ๋ฐ ๋ฐฐํฌ ์์ ์๊ฐ์ ๋ถํฌ๊ฐ ์ผ์นํ๊ธฐ ๋๋ฌธ์, ํ์ต๋ ์ ์ฑ
์ด ๋ฌผ๋ฆฌ์ ์ฐจ๋์ผ๋ก ์ง์ ์ ์ด๋๋ค.์ ์๋ค์ ๋ง์ถคํ 3DGS ๊ธฐ๋ฐ ํ๊ฐ ๋ฒค์น๋งํฌ์์์ ๊ฒฐ๊ณผ๋ IL ๊ธฐ์ค ๋ชจ๋ธ ๋๋น ์๋ฏธ ์๋ ๊ฐ์ ์ ๋ณด์ฌ ์ค๋ค. ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ์์ ๋นํด ์ถฉ๋๋ฅ ์ด 3๋ฐฐ ๋ฎ๋ค. nuScenes ๋ฐ์ดํฐ๋ ํ๊ฐ ๋ฒค์น๋งํฌ ์์ฒด๊ฐ ์๋๋ผ ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค๋ ์ ์ ์ ์ํด์ผ ํ๋ค. ์ด ์์น๋ค์ ์ ์๋ฏธํ์ง๋ง, ํด๋น ์ ๊ทผ ๋ฐฉ์์ ํ์คํ๋ ๊ณต๊ฐ ๋ฒค์น๋งํฌ๊ฐ ์๋ ๋ง์ถคํ ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋ ๋งํผ ์์ง ์ด๊ธฐ ๋จ๊ณ์ ์๋ค.
์๋ ๋ชจ๋ธ ์ ๋ ฌ: Raw2Drive
Yang et al. (2025)์ ๋ณด๋ค ๋ฏธ๋ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ์๋ ๋ชจ๋ธ์ด ์ฌ์ค์ ์ผ๋ก ๋ฌ์ฌ๋๋๋ผ๋, ๊ทธ ์ญํ์ด ํ์ค๊ณผ ๊ดด๋ฆฌ๋ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์๋ฆ๋ค์ด ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ์ง๋ง ์๋ชป๋ ๋ฌผ๋ฆฌ๋ฅผ ์๋ฎฌ๋ ์ด์
ํ๋ ์๋ ๋ชจ๋ธโ์๋ฅผ ๋ค์ด ์๋ชป๋ ๋ง์ฐฐ ๊ณ์๋ ๋นํ์ค์ ์ธ ์ฐจ๋ ์ญํโ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ฃผํ ๊ธฐ์ ์ ํ์ตํ๋ ๋์ ๋ชจ๋ธ์ ๊ฒฐํจ์ ์ด์ฉํ๋ RL ์ ์ฑ
์ ๋ง๋ค์ด ๋ผ ๊ฒ์ด๋ค.
Raw2Drive๋ ์๊ฐ์ ์ฌ๊ตฌ์ฑ๊ณผ ์ญํ ์์ธก์ ๊ณต๋์ผ๋ก ํ์ตํ๋ "์ ๋ ฌ๋ ์ธ๊ณ ๋ชจ๋ธ(aligned world model)"์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ๋ชจ๋ธ์ ๋ด๋ถ ๋ฌผ๋ฆฌ ๋ฒ์น์ด ์ค์ ์ฐจ๋ ๊ฑฐ๋๊ณผ ์ผ์นํ๋๋ก ๋ณด์ฅํ๋ค. arXiv์ ๊ฒ์ฌ๋ ์ด ํ๋ ์์ํฌ๋ CARLA v2์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋๋ฐ, CARLA v2๋ CARLA v1๋ณด๋ค ํจ์ฌ ์ด๋ ค์ด ๋ฒค์น๋งํฌ๋ก์ ๋ ๋ณต์กํ ์๋๋ฆฌ์ค์ ์๊ฒฉํ ํ๊ฐ ๊ธฐ์ค์ ๊ฐ์ถ๊ณ ์๋ค.
์ฃผ์ ๊ธฐ์ ์ ๊ธฐ์ฌ:
- ์ญํ ์ ๋ ฌ ์์ค(dynamics alignment loss): ์ธ๊ณ ๋ชจ๋ธ์ ์์ธก ์ํ ์ ์ด์ ๊ธฐ๋ก๋ ์ค์ ์ํ ์ ์ด ์ฌ์ด์ ๋ถ์ผ์น์ ํจ๋ํฐ๋ฅผ ๋ถ๊ณผํ๋ ์ ๊ทํ ํญ์ด๋ค.
- ์ ์ฌ ๊ณต๊ฐ ๊ณํ(latent-space planning): ๊ฐ ๊ณํ ๋จ๊ณ๋ง๋ค ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ๋ ๋์ , Raw2Drive๋ ์ธ๊ณ ๋ชจ๋ธ์ ์ ์ฌ ๊ณต๊ฐ์์ ๊ณํ์ ์๋ฆฝํ๋ค. ์ด๋ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ด๋ฉด์๋ ๊ณผ์ ๊ด๋ จ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ ์์ถ๋ ํํ์ด๋ค.
- RL ๋ฏธ์ธ ์กฐ์ (RL fine-tuning): ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ํตํ ์ฌ์ ํ์ต ์ดํ, ์ ๋ ฌ๋ ์ธ๊ณ ๋ชจ๋ธ ๋ด์์ RL๋ก ์ ์ฑ
์ ๋ฏธ์ธ ์กฐ์ ํ๋ฉฐ, ํนํ IL์ด ์คํจํ๋ ์๋๋ฆฌ์ค(์: ์ถฉ๋ ์ง์ ์ํฉ, ๋ณต์กํ ๊ต์ฐจ๋ก)๋ฅผ ์ง์ค์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๊ณต์ ํ ์ธ๊ณ ๋ชจ๋ธ: AD-R1
Yan et al. (2025)์ ์ด์ ์ฐ๊ตฌ์์ ๊ฐ๊ณผ๋ ์ธ๊ณ ๋ชจ๋ธ ๊ธฐ๋ฐ RL์ ํธํฅ์ ๊ท๋ช
ํ๋ค. ์ ๋ฌธ๊ฐ ์ฃผํ ๋ก๊ทธ๋ก ํ์ต๋ ์ธ๊ณ ๋ชจ๋ธ์ ์ฐจ๋์ด ์ ์ด์ ๋ ๋ ๋ฐ์ํ๋ ์ํฉ์ ์์ธกํ๋ ๋ฐ ํนํ๋์ด ์๋ค. ๋ฐ๋ฉด ์ฐจ๋์ด ์ค์๋ฅผ ์ ์ง๋ฅผ ๋ ๋ฐ์ํ๋ ์ํฉ, ์ฆ RL ํ์ต์ด ๊ฐ์ฅ ์ ์ตํ ์์ญ์์๋ ์์ธก ์ฑ๋ฅ์ด ์ ์กฐํ๋ค.
AD-R1์ ์ถฉ๋ ์ง์ ์ํฉ๊ณผ ํ๋ณต ์กฐ์์ ํฌํจํ์ฌ ์ ๋ฌธ๊ฐ ๋ฐ ๋น์ ๋ฌธ๊ฐ ์ฃผํ ๋ฐ์ดํฐ ๋ชจ๋๋ฅผ ํ์ตํ "๊ณต์ ํ ์ธ๊ณ ๋ชจ๋ธ(impartial world model)"๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. (์ด๊ธฐ ๋จ๊ณ์ด๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋) ์ด ์ฐ๊ตฌ๋ ์ธ๊ณ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ ๋ค์์ฑ์ด ์๊ฐ์ ์ถฉ์ค๋๋งํผ์ด๋ ์ค์ํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด ํ๋ ์์ํฌ๋ ์ปค๋ฆฌํ๋ผ ๊ธฐ๋ฐ RL ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ค:
1๋จ๊ณ: IL ์ฌ์ ํ์ต์ด ์ข์ ์ด๊ธฐํ๋ฅผ ์ ๊ณตํ๋ ์ฌ์ด ์๋๋ฆฌ์ค(์ง์ ๋๋ก, ์ ์ ๊ตํต๋)์์ ํ์ตํ๋ค.
2๋จ๊ณ: ๊ณต์ ํ ์ธ๊ณ ๋ชจ๋ธ์ด ํ์ค์ ์ธ ์คํจ ๋ชจ๋๋ฅผ ์์ฑํ๋ ๋ ์ด๋ ค์ด ์๋๋ฆฌ์ค(๋ฐ์ง ๊ตํต, ์
์ฒํ, ๊ณต์ฌ ๊ตฌ๊ฐ)๋ฅผ ์ ์ง์ ์ผ๋ก ๋์
ํ๋ค.
3๋จ๊ณ: ์ธ๊ณ ๋ชจ๋ธ์ด ์ฃผํ ์ ์ฑ
์ ์คํธ๋ ์ค ํ
์คํธํ๊ธฐ ์ํด ๋ฅ๋์ ์ผ๋ก ๋์ ์ ์ธ ์ํฉ์ ์์ฑํ๋ ์ ๋์ ์๋๋ฆฌ์ค ์์ฑ์ ์ํํ๋ค.์ด ์ปค๋ฆฌํ๋ผ์ ์ธ๊ฐ ์ด์ ์๊ฐ ํ์ตํ๋ ๋ฐฉ์์ ๋ชจ๋ฐฉํ๋ค. ์ฌ์ด ๋๋ก๋ถํฐ ์์ํ์ฌ, ์ดํ ๊ณ ์๋๋ก ํฉ๋ฅ, ๋ง์ง๋ง์ผ๋ก ๋น์ค ์ํฉ์ ๋ค๋ฃฌ๋ค. ํต์ฌ ์ค์ฆ ๊ฒฐ๊ณผ๋ 3๋จ๊ณ(์ ๋์ ํ์ต)๊ฐ 1๋จ๊ณ์ 2๋จ๊ณ๋ง์ผ๋ก ํ์ต๋ ์ ์ฑ
์ ๋นํด ๋กฑํ
์ผ(long-tail) ์๋๋ฆฌ์ค์์์ ์์ ์๋ฐ์ ํฌ๊ฒ ๊ฐ์์ํจ๋ค๋ ๊ฒ์ด๋ค. ๋
ผ๋ฌธ์ ์ด๋ฅผ Risk Foreseeing Benchmark์์ ์
์ฆํ๊ณ ์์ผ๋, ์ด๋ก์์ ๋จ์ผ ํต์ฌ ์์น๋ ๋ณด๊ณ ํ์ง ์๋๋ค.
์ ์์ ์ถ๋ก : AdaThinkDrive
Luo et al. (2025)์ RL ๊ธฐ๋ฐ ์ฃผํ ๋ฌธ์ ์ ๋ํด ๋ค๋ฅธ ๊ด์ ์ ์ทจํ๋ค. ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฐ์ ํ๋ ๋์ ์ฃผํ ์์ด์ ํธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ฒ์ด๋ค. AdaThinkDrive๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ฐ์์ ์ฌ๊ณ (chain-of-thought, CoT) ์ถ๋ก ๊ณผ RL ๋ฏธ์ธ ์กฐ์ ์ ํตํฉํ์ฌ, ์ฃผํ ์์ด์ ํธ๊ฐ ํ๋์ ์คํํ๊ธฐ ์ ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ช
ํํ ํํํ ์ ์๋๋ก ํ๋ค.
์ด ์ฐ๊ตฌ๋ ์ค์ฉ์ ์ธ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ๋จ์ํ ์ฃผํ ์๋๋ฆฌ์ค(์ง์ ๋๋ก, ๊ตํต ์์)์์๋ ์ฐ์์ ์ฌ๊ณ ์ถ๋ก ์ด ์ด์ ์์ด ์ง์ฐ ์๊ฐ๋ง ์ฆ๊ฐ์ํจ๋ค. AdaThinkDrive๋ RL์ ์ฌ์ฉํ์ฌ ์ธ์ ์๊ฐํ ์ง๋ฅผ ํ์ตํ๋ค. ์๊ณ ๊ฐ ํ์ํ ๋ณต์กํ ์ํฉ์์๋ง CoT ์ถ๋ก ์ ์๋์ํค๊ณ , ์ผ์์ ์ธ ์ฃผํ์์๋ ์ด๋ฅผ ์ฐํํ๋ค.
์ ์์ ์ถ๋ก ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ ๊ท ํ์ ๋ฌ์ฑํ๋ค. ๋ณต์กํ ์๋๋ฆฌ์ค์์๋ CoT ๋ชจ๋์ด ์์ด์ ํธ์ ๊ฒฐ์ ์ ์ค๋ช
ํ์ฌ(์: "ํก๋จ๋ณด๋์์ ๋ณดํ์ ๊ฐ์ง, ์๋ ๊ฐ์, ์ดํ ์ ๋ฐ๋ ์ฐจ์ ํ์ธ") ์ฑ๋ฅ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ชจ๋ ํฅ์์ํจ๋ค. ๋จ์ํ ์๋๋ฆฌ์ค์์๋ ์์ด์ ํธ๊ฐ ๋ฐ์ฌ์ ์ผ๋ก ํ๋ํ์ฌ ์ค์๊ฐ ์ ์ด์ ํ์ํ ๋ฎ์ ์ง์ฐ ์๊ฐ์ ์ ์งํ๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| 3DGS ๊ธฐ๋ฐ RL์ด ์ฃผํ์์ IL ๋๋น ์ฑ๋ฅ ํฅ์ | ๋ง์ถคํ 3DGS ๋ฒค์น๋งํฌ์์ ์ถฉ๋๋ฅ 3๋ฐฐ ๊ฐ์ (Gao et al.) | โ
์ง์ง๋จ |
| ์ ๋ ฌ๋ ์ธ๊ณ ๋ชจ๋ธ์ sim-to-real ๊ฒฉ์ฐจ๋ฅผ ์ค์ธ๋ค | CARLA v2 ์ต์ฒจ๋จ ์ฑ๋ฅ (Yang et al.) | โ
์ง์ง๋จ (์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ) |
| ๊ณต์ ํ ์ธ๊ณ ๋ชจ๋ธ์ ์ฅ๊ผฌ๋ฆฌ ์ฒ๋ฆฌ๋ฅผ ๊ฐ์ ํ๋ค | Risk Foreseeing Benchmark (Yan et al.)์์ ์์ ์๋ฐ ๋ํญ ๊ฐ์ | โ
์ง์ง๋จ (์๋ฎฌ๋ ์ด์
) |
| Adaptive CoT๋ ๋ณต์กํ ์๋๋ฆฌ์ค ์ถ๋ก ์ ๊ฐ์ ํ๋ค | ์ง์ฐ ์๊ฐ์ ์ ์งํ๋ฉด์ ํด์ ๊ฐ๋ฅํ ๊ฒฐ์ (Luo et al.) | โ
์ง์ง๋จ |
| RL๋ก ํ๋ จ๋ ์ ์ฑ
์ ๊ณต๊ณต ๋๋ก ์ฃผํ์ ์ค๋น๋์ด ์๋ค | ์ค์ธ๊ณ ๋ฐฐํฌ ์ฐ๊ตฌ ๋ฏธ๋ฐํ | โ ๋ฐ๋ฐ๋จ (ํ์ฌ ๊ธฐ์ค) |
์์ ๊ฒ์ฆ์ ๊ณต๋ฐฑ
RL ๊ธฐ๋ฐ ์์จ์ฃผํ ์ฐ๊ตฌ ์ ๋ฐ์ ๊ฑธ์ณ ๋
ผ์๋ฅผ ํํผํ ์ ์๋ ํต์ฌ ๋ฌธ์ ๋ ์์ ๊ฒ์ฆ์ด๋ค. ์ ํต์ ์ธ ์์ ๊ณตํ์ ํ์์ ๋ฐฉ๋ฒ๋ก , ๊ฒฐํจ ํธ๋ฆฌ, ๊ณ ์ฅ ๋ชจ๋ ๋ถ์์ ์์กดํ๋๋ฐ, ์ด๋ฌํ ๋๊ตฌ๋ค์ ๋ช
์์ ์ด๊ณ ํด์ ๊ฐ๋ฅํ ์์คํ
์ฌ์์ ํ์๋ก ํ๋ค. RL๋ก ํ๋ จ๋ ์ ๊ฒฝ๋ง ์ ์ฑ
์ ์ด ์ค ์ด๋ ๊ฒ๋ ์ ๊ณตํ์ง ์๋๋ค. ์ด๋ ์๋ฐฑ๋ง ๊ฐ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์ผ์ ์
๋ ฅ์ ์กฐํฅ๊ฐ์ผ๋ก ๋ณํํ๋ ๋ธ๋๋ฐ์ค์ ๋ถ๊ณผํ๋ค.
์ด๋ฌํ ์์คํ
์ด ๊ณต๊ณต ๋๋ก ์ฃผํ์ ์ถฉ๋ถํ ์์ ํ๋ค๋ ๊ฒ์ ์ด๋ป๊ฒ ์ธ์ฆํ ์ ์๋๊ฐ? ๊ท์ ๋น๊ตญ์ ๋ต๋ณ์ ๋ถ๋ช
ํํ๋ค. ISO 21448(์๋๋ ๊ธฐ๋ฅ์ ์์ ์ฑ)์ AI ๊ธฐ๋ฐ ์ฃผํ ๊ธฐ๋ฅ์ ๋ถ์ถฉ๋ถ์ฑ์ ์ฒ๋ฆฌํ๊ธฐ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ง๋ง, ์ด๋ ๋ชจ๋์ ์ธ์ง-๊ณํ-์ ์ด ์ํคํ
์ฒ๋ฅผ ์ํด ์ค๊ณ๋ ๊ฒ์ผ๋ก ์ข
๋จ๊ฐ ํ์ต ์ ์ฑ
์๋ ์ ํฉํ์ง ์๋ค. RL๋ก ํ๋ จ๋ ์์คํ
์ ์์ ํ์ค์ ์ ์ฉํ๋ ๊ฒ์ ๊ท์ ๋ฐ ๊ณตํ ๋ถ์ผ ๋ชจ๋์์ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฐ ํฅํ ๋ฐฉํฅ
์ธ๊ณ ๋ชจ๋ธ์ ๋ฏธ์ง์ ๋์์๋ ์ผ๋ฐํ๋ ์ ์๋๊ฐ? ํ์ฌ ๊ฒฐ๊ณผ๋ ํน์ ๋ฐ์ดํฐ์
(nuScenes: ๋ณด์คํด, ์ฑ๊ฐํฌ๋ฅด; CARLA: ํฉ์ฑ ํ๊ฒฝ)์ ๊ธฐ์ค์ผ๋ก ๋ฒค์น๋งํฌ๋์ด ์๋ค. ์๋ก์ด ๋์ ๊ตฌ์กฐ, ์ด์ ๊ดํ(์ข์ธกํตํ ๋ ์ฐ์ธกํตํ), ๋๋ก ์กฐ๊ฑด์ ๋ํ ์ผ๋ฐํ๋ ๊ฒ์ฆ๋์ง ์์๋ค.์ด๋ค ๋ณด์ ํจ์๊ฐ "์ถฉ๋ถํ ์์ ํ๊ฐ"? RL์ ์ฑ๋ฅ์ ๋ณด์ ํจ์์ ํ์ง์ ์ ์ ์ผ๋ก ์์กดํ๋ค. ๊ธด๊ธ ์ฐจ๋, ๋๋ก ์ ์ด๋ฌผ์ง, ๋น์ ์์ ์ธ ๋ณดํ์ ํ๋๊ณผ ๊ฐ์ ์ฃ์ง ์ผ์ด์ค๋ฅผ ํฌํจํ ์์ ์ด์ ์ ์ ์ฒด์ ์ธ ๋ณต์ก์ฑ์ ์ค์นผ๋ผ ๋ณด์ ์ ํธ๋ก ์ธ์ฝ๋ฉํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ์ค๊ณ ๊ณผ์ ์ด๋ค.์ฑ
์ ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ ๊ฒ์ธ๊ฐ? RL๋ก ํ๋ จ๋ ์ฐจ๋์ด ํ๋ จ ๋ณด์์์ ๋ค๋ฃจ์ง ์์ ์๋๋ฆฌ์ค๋ก ์ธํด ์ฌ๊ณ ๋ฅผ ์ผ์ผํจ ๊ฒฝ์ฐ, ๋๊ฐ ์ฑ
์์ ์ง๋๊ฐ? ์ ์กฐ์
์ฒด์ธ๊ฐ? RL ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ์์ธ๊ฐ? ํ๋ จ ๋ฐ์ดํฐ ์ ๊ณต์์ธ๊ฐ?RL๊ณผ IL์ ์ต์ ์ผ๋ก ๊ฒฐํฉํ ์ ์๋๊ฐ? ์ด๋ค ์ฐ๊ตฌ ์ค ์ผ๋ถ๋ ์ฌ์ ํ๋ จ์ IL์ ์ฌ์ฉํ๊ณ ๋ฏธ์ธ ์กฐ์ ์ RL์ ์ฌ์ฉํ๋ค. ์ด๋ค ์ฃผํ ํ๋์ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํด์ผ ํ๊ณ ์ด๋ค ๊ฒ์ ์ต์ ํ๋ฅผ ํตํด ๋ฐ๊ฒฌํด์ผ ํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ ์์น์ ์ธ ํ๋ ์์ํฌ๊ฐ ์กด์ฌํ๋๊ฐ?3DGS ๊ธฐ๋ฐ ํ๋ จ์ ์ฐ์ฐ ๋น์ฉ์ ์ผ๋ง์ธ๊ฐ? RAD๋ ์ฃผํ ๋ก๊ทธ๋ก๋ถํฐ 3D ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํด์ผ ํ๋๋ฐ, ์ด ๊ณผ์ ์ ์ฐ์ฐ ๋น์ฉ์ด ๋งค์ฐ ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ด ์์ฐ ์์คํ
์ ํ์ํ ์๋ฐฑ๋ง ์๊ฐ์ ์ฃผํ ๋ฐ์ดํฐ๋ก ํ์ฅ๋ ์ ์๋๊ฐ?์์จ์ฃผํ ์ฐ์
์ ๋ํ ์์ฌ์
์์จ์ฃผํ์์ ๋ชจ๋ฐฉ ํ์ต์ผ๋ก๋ถํฐ ๊ฐํ ํ์ต์ผ๋ก์ ์ ํ์ AI ๋ถ์ผ์ ๋ ๋์ ํ๋ฆ์ ๋ฐ์ํ๋ค. ์ฆ, ์ธ๊ฐ ํ๋์ ๋ชจ๋ฐฉํ๋ ์์คํ
์์ ๋ชฉํ๋ฅผ ์ต์ ํํ๋ ์์คํ
์ผ๋ก์ ์ ํ์ด๋ค. ์ด๋ฌํ ์ ํ์ ์ฃ์ง ์ผ์ด์ค์ ๋ ๋์ ์ฒ๋ฆฌ, ๋ ๊ฒฌ๊ณ ํ ์์ ํน์ฑ, ๊ทธ๋ฆฌ๊ณ ๊ถ๊ทน์ ์ผ๋ก ์ฐ์ํ ์ฃผํ ์ฑ๋ฅ์ ์ฝ์ํ๋ค.
๊ทธ๋ฌ๋ ์ด๋ ์๋ก์ด ์ํ๋ ์๋ฐํ๋ค. ์๋ชป ๋ช
์ธ๋ ๋ณด์ ํจ์๋ฅผ ์ต์ ํํ๋ RL ์ ์ฑ
์ ๊ธฐ์ ์ ์ผ๋ก๋ "์ต์ "์ด์ง๋ง ์ค์ง์ ์ผ๋ก๋ ์ํํ ์ ๋ต์ ๋ฐ๊ฒฌํ ์ ์๋ค. ์์ปจ๋ ์ง๋์น๊ฒ ๊ณต๊ฒฉ์ ์ผ๋ก ์ฝ๋๋ฅผ ์ฃผํํ๊ฑฐ๋, ์ฒ๋ฆฌ๋์ ๊ทน๋ํํ๊ธฐ ์ํด ๋๋ฌด ๋ฆ๊ฒ ์ ๋ํ๊ฑฐ๋, ์ธ๊ฐ ์ด์ ์๋ผ๋ฉด ๋๋ฌด ์ข๋ค๊ณ ํ๋จํ ๊ตํต ํ๋ฆ์ ํ์ ํ๊ณ ๋๋ ๊ฒฝ์ฐ๊ฐ ์ด์ ํด๋นํ๋ค. ์์จ์ฃผํ์ ์ํ ๋ณด์ ๊ณตํ์ ์ฃผํ ๋ฌธ์ ์์ฒด๋งํผ์ด๋ ์ด๋ ค์ด ๊ณผ์ ์์ด ๋๋ฌ๋ ์ ์๋ค.
์ด ๋ถ์ผ๋ ๋น ๋ฅด๊ฒ ์ง์ ๋๊ณ ์๋ค. RAD์ ์ฑ๊ณผ, Raw2Drive์ CARLA v2 ๊ฒฐ๊ณผ, AdaThinkDrive์ ์ ์์ ์ถ๋ก ์ ๋ชจ๋ ์ค์ง์ ์ธ ๋ฐ์ ์ ๋ํ๋ธ๋ค. ๋จ์ ๊ฒ์ ๊ฐ์ฅ ์ด๋ ค์ด ๋ถ๋ถ, ์ฆ ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ๋ฅผ ์ค์ธ๊ณ ์์ ์ผ๋ก ์ ํํ๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์๋ฌด๋ฆฌ ์ฌ์ค์ ์ธ ๋ ๋๋ง์ผ๋ก๋ ์์ ํ ํด๊ฒฐํ ์ ์๋ ๊ณผ์ ์ด๋ค.
References (4)
[1] Gao, H., Chen, S., Jiang, B. et al. (2025). RAD: Training an end-to-end driving policy via large-scale 3DGS-based reinforcement learning. arXiv:2502.13144.
[2] Yang, Z., Jia, X., Li, Q. et al. (2025). Raw2Drive: Reinforcement learning with aligned world models for end-to-end autonomous driving (in CARLA v2). arXiv:2505.16394.
[3] Yan, T., Tang, T., Gui, X. et al. (2025). AD-R1: Closed-loop reinforcement learning for end-to-end autonomous driving with impartial world models. arXiv:2511.20325.
[4] Luo, Y., Li, F., Xu, S. et al. (2025). AdaThinkDrive: Adaptive thinking via reinforcement learning for autonomous driving. arXiv:2509.13769.