Paper ReviewAI & Machine LearningExperimental Design
The Multi-Turn Attack Surface: Why Single-Turn Safety Tests Miss the Real Threats
LLMs that pass single-turn safety tests fail catastrophically in multi-turn conversations. MTSA demonstrates dramatic safety degradation over extended dialogues, while MUSE uses Monte Carlo Tree Search to systematically discover multi-turn attack paths. The implications for deployed conversational AI are urgent.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
There is a significant gap at the heart of LLM safety evaluation. Models pass single-turn safety benchmarks with impressive scoresโthe vast majority of harmful queries correctly refused. Developers publish these numbers. Users trust them. Regulators cite them. And all of them are measuring the wrong thing.
Real users do not interact with language models in single turns. They have conversationsโextended dialogues where context accumulates, rapport develops, and the boundary between innocent curiosity and harmful intent blurs across dozens of exchanges. In this multi-turn setting, the same models that appear robustly safe in single-turn evaluation become alarmingly vulnerable.
Guo et al.'s MTSA framework quantifies the magnitude of this gap with devastating clarity: safety alignment degrades dramatically over extended multi-turn conversations, with models that appear robust in single-turn evaluation becoming highly vulnerable as dialogue lengthens. This is not a marginal failure. It is a collapseโand it happens through conversational manipulation strategies that are subtle enough to evade per-turn safety classifiers yet effective enough to systematically extract harmful content.
The Anatomy of Multi-Turn Attacks
Multi-turn attacks exploit a fundamental property of conversational AI: context dependence. Each response is conditioned on the full conversation history. An attacker who can shape that history controls the context in which the model interprets subsequent queries.
The attack strategies documented across this cohort fall into four categories:
Gradual escalation: The attacker begins with completely benign queries and incrementally shifts toward harmful territory. Each individual step is too small to trigger safety classifiers, but the cumulative trajectory reaches harmful content. Like the proverbial frog in slowly heating water, the model's safety guardrails relax gradually rather than being overwhelmed at once.
Context manipulation: The attacker establishes a fictional framing ("Imagine you're writing a thriller novel where the villain needs to...") that provides plausible deniability for each individual query while creating a context where harmful information flows naturally.
Persona exploitation: Through extended dialogue, the attacker encourages the model to adopt a specific personaโan expert, a historical figure, a fictional characterโwhose "expertise" justifies providing information the base model would refuse.
Trust building: The attacker engages in genuine, helpful conversation for many turns, building a pattern of positive interaction that causes the model to lower its guard for subsequent harmful requests.
MUSE: Searching the Attack Tree
Yan et al.'s MUSE framework applies Monte Carlo Tree Search (MCTS) to multi-turn red teamingโtreating the attack as a sequential decision problem where each turn represents a branch in a tree of possible conversation trajectories.
The approach is powerful because it is systematic. Rather than relying on human red teamers to manually craft multi-turn attacks (an expensive, slow, and incomplete process), MUSE automatically explores the space of possible conversation strategies, evaluating which sequences of prompts most effectively degrade safety alignment.
MCTS brings two crucial properties to red teaming:
Exploration-exploitation balance: The algorithm balances exploring novel attack strategies (which might discover unexpected vulnerabilities) with exploiting known effective strategies (which efficiently validates known weaknesses).Depth: MCTS naturally handles the combinatorial explosion of possible multi-turn conversations by pruning unpromising branches and focusing search on trajectories likely to succeed.The discovered attack paths are often non-obviousโinvolving conversation strategies that no human red teamer explicitly considered. This is both the method's strength (finding novel vulnerabilities) and its limitation (the attacks may not represent realistic human behavior).
The Agent Escalation
AJAR (Dou & Yang, 2026) introduces the most consequential evolution in the red teaming landscape: attacks on AI agents rather than chatbots. As LLMs transition from text generators to autonomous agents with tool access, the stakes of jailbreaking escalate from "generating harmful text" to "executing harmful actions."
An agent that has been manipulated through multi-turn dialogue might not just describe how to exfiltrate dataโit might execute the exfiltration using its available tools. The boundary between information hazard and operational hazard collapses when the model can act on its outputs.
AJAR's adaptive architecture automatically discovers attack strategies that combine textual manipulation with tool-use exploitation, finding that agent safety systems designed for single-turn tool calls are systematically vulnerable to multi-turn context manipulation that reframes harmful tool use as legitimate workflow steps.
AutoRedTeamer: The Arms Race Accelerates
Zhou et al.'s AutoRedTeamer represents the natural endpoint of automated red teaming: an AI system that not only discovers attacks but learns from its discoveries to find better attacks over time. Using a lifelong learning architecture, AutoRedTeamer maintains a growing library of successful attack strategies and combines them to create novel attacks that evade defenses calibrated against known strategies.
The implication is an accelerating arms race where attack sophistication grows continuously. Static defensesโfixed safety classifiers, hardcoded refusal patternsโare fundamentally inadequate against an adversary that adapts. The defense must be equally adaptive, continuously monitoring for novel attack patterns and updating safety mechanisms in response.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Multi-turn safety is dramatically worse than single-turn | MTSA demonstrates substantial safety degradation over multi-turn dialogue | โ
Strongly supported |
| MCTS finds attacks that humans miss | MUSE discovers non-obvious multi-turn strategies | โ
Supported |
| Agent jailbreaks can cause real-world harm (not just text) | AJAR demonstrates tool-use exploitation via dialogue manipulation | โ
Supported (conceptual) |
| Static defenses resist adaptive attacks | AutoRedTeamer bypasses fixed classifiers through continuous adaptation | โ Refuted |
| Current multi-turn safety benchmarks are adequate | Massive gap between benchmark coverage and real attack surface | โ Refuted |
Open Questions
Defense-in-depth for dialogue: What is the right architecture for multi-turn safety? Per-turn classifiers fail. Should we add conversation-level safety monitors that analyze the trajectory, not just the current turn?User intent modeling: Can we distinguish between users who are genuinely curious (a chemistry student asking about reactions) and users who are strategically escalating toward harm? The distinction is crucial for avoiding both false positives and false negatives.The disclosure dilemma: Automated red teaming tools discover novel attacks. Should discovered attack strategies be published (enabling defense research) or restricted (preventing misuse)? The information security community has debated responsible disclosure for decades, but the scale and accessibility of LLM attacks introduces new dynamics.Regulatory implications: If models that pass current safety benchmarks are demonstrably unsafe in multi-turn settings, should regulators require multi-turn evaluation? What should the standard be?Computational cost of safety: Monitoring every conversation turn for safety in real time adds latency and cost. For models serving billions of queries, this cost is substantial. How do we build safety systems that are both thorough and efficient?What This Means for Your Research
For AI safety researchers, multi-turn red teaming is no longer optionalโit is the minimum viable evaluation for conversational AI. Single-turn benchmarks should be retired as the primary safety metric for any model deployed in dialogue settings.
For deployed systems, the dramatic multi-turn degradation documented by MTSA means that current safety margins are far thinner than they appear. Organizations deploying conversational AI should implement conversation-level monitoring that flags escalation patterns, not just individual harmful queries.
For the broader community, the transition from chatbot to agent safety represents a qualitative shift in risk. When AI systems can actโnot just speakโthe consequences of safety failures move from reputational damage to operational damage. The multi-turn attack surface is where these failures will originate, and the current state of defense is inadequate to the threat.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
๋ค์ค ํด ๊ณต๊ฒฉ ํ๋ฉด: ๋จ์ผ ํด ์์ ์ฑ ํ
์คํธ๊ฐ ์ค์ ์ํ์ ๋์น๋ ์ด์
LLM ์์ ์ฑ ํ๊ฐ์ ํต์ฌ์๋ ์๋นํ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ค. ๋ชจ๋ธ๋ค์ ๋จ์ผ ํด ์์ ์ฑ ๋ฒค์น๋งํฌ์์ ์ธ์์ ์ธ ์ ์๋ก ํต๊ณผํ๋คโ์ ํดํ ์ง์์ ๋๋ค์๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ๊ฑฐ๋ถ๋๋ค. ๊ฐ๋ฐ์๋ค์ ์ด ์์น๋ฅผ ๊ณต๊ฐํ๊ณ , ์ฌ์ฉ์๋ค์ ์ด๋ฅผ ์ ๋ขฐํ๋ฉฐ, ๊ท์ ๊ธฐ๊ด๋ค์ ์ด๋ฅผ ์ธ์ฉํ๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋ค ๋ชจ๋๋ ์๋ชป๋ ๊ฒ์ ์ธก์ ํ๊ณ ์๋ค.
์ค์ ์ฌ์ฉ์๋ค์ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋จ์ผ ํด์ผ๋ก ์ํธ์์ฉํ์ง ์๋๋ค. ๊ทธ๋ค์ ๋ํ๋ฅผ ๋๋๋คโ๋ฌธ๋งฅ์ด ์์ด๊ณ , ์น๋ฐ๊ฐ์ด ํ์ฑ๋๋ฉฐ, ์์ํ ํธ๊ธฐ์ฌ๊ณผ ์ ํดํ ์๋ ์ฌ์ด์ ๊ฒฝ๊ณ๊ฐ ์์ญ ๋ฒ์ ๊ตํ์ ๊ฑฐ์น๋ฉฐ ํ๋ ค์ง๋ ํ์ฅ๋ ๋ํ ๋ง์ด๋ค. ์ด๋ฌํ ๋ค์ค ํด ํ๊ฒฝ์์, ๋จ์ผ ํด ํ๊ฐ์์ ๊ฐ๊ฑดํ๊ฒ ์์ ํด ๋ณด์ด๋ ๋ฐ๋ก ๊ทธ ๋ชจ๋ธ๋ค์ด ๋๋ผ์ธ ์ ๋๋ก ์ทจ์ฝํด์ง๋ค.
Guo et al.์ MTSA ํ๋ ์์ํฌ๋ ์ด ๊ฒฉ์ฐจ์ ๊ท๋ชจ๋ฅผ ์ถฉ๊ฒฉ์ ์ธ ๋ช
ํํจ์ผ๋ก ์์นํํ๋ค: ์์ ์ฑ ์ ๋ ฌ์ ํ์ฅ๋ ๋ค์ค ํด ๋ํ์ ๊ฑธ์ณ ๊ทน์ ์ผ๋ก ์ ํ๋๋ฉฐ, ๋จ์ผ ํด ํ๊ฐ์์ ๊ฐ๊ฑดํด ๋ณด์ด๋ ๋ชจ๋ธ๋ค์ ๋ํ๊ฐ ๊ธธ์ด์ง์๋ก ๋งค์ฐ ์ทจ์ฝํด์ง๋ค. ์ด๊ฒ์ ๋ฏธ๋ฏธํ ์คํจ๊ฐ ์๋๋ค. ์ด๊ฒ์ ๋ถ๊ดด์ด๋คโ๊ทธ๋ฆฌ๊ณ ์ด๋ ํด๋ณ ์์ ์ฑ ๋ถ๋ฅ๊ธฐ๋ฅผ ๊ต๋ฌํ๊ฒ ํํผํ๋ฉด์๋ ์ ํดํ ์ฝํ
์ธ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ถ์ถํ๊ธฐ์ ์ถฉ๋ถํ ํจ๊ณผ์ ์ธ ๋ํ ์กฐ์ ์ ๋ต๋ค์ ํตํด ๋ฐ์ํ๋ค.
๋ค์ค ํด ๊ณต๊ฒฉ์ ํด๋ถํ
๋ค์ค ํด ๊ณต๊ฒฉ์ ๋ํํ AI์ ๊ทผ๋ณธ์ ์ธ ์์ฑ์ธ ๋ฌธ๋งฅ ์์กด์ฑ์ ์
์ฉํ๋ค. ๊ฐ๊ฐ์ ์๋ต์ ์ ์ฒด ๋ํ ์ด๋ ฅ์ ์กฐ๊ฑด์ผ๋ก ์์ฑ๋๋ค. ๊ทธ ์ด๋ ฅ์ ํ์ฑํ ์ ์๋ ๊ณต๊ฒฉ์๋ ๋ชจ๋ธ์ด ์ดํ์ ์ง์๋ฅผ ํด์ํ๋ ๋ฌธ๋งฅ์ ํต์ ํ๊ฒ ๋๋ค.
์ด ์ฐ๊ตฌ ์ง๋จ์ ๊ฑธ์ณ ๋ฌธ์ํ๋ ๊ณต๊ฒฉ ์ ๋ต๋ค์ ๋ค ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋๋ค:
์ ์ง์ ์์ค์ปฌ๋ ์ด์
: ๊ณต๊ฒฉ์๋ ์์ ํ ๋ฌดํดํ ์ง์๋ก ์์ํ์ฌ ์ ์ฐจ ์ ํดํ ์์ญ์ผ๋ก ์ด๋ํ๋ค. ๊ฐ๋ณ์ ์ธ ๊ฐ ๋จ๊ณ๋ ์์ ์ฑ ๋ถ๋ฅ๊ธฐ๋ฅผ ์๋์ํค๊ธฐ์๋ ๋๋ฌด ์์ง๋ง, ๋์ ๋ ๊ถค์ ์ ์ ํดํ ์ฝํ
์ธ ์ ๋๋ฌํ๋ค. ์ ์ ๋จ๊ฑฐ์์ง๋ ๋ฌผ์์ ๊ฐ๊ตฌ๋ฆฌ ๋น์ ์ฒ๋ผ, ๋ชจ๋ธ์ ์์ ์ฅ์น๋ ํ๊บผ๋ฒ์ ์๋๋นํ๋ ๊ฒ์ด ์๋๋ผ ์์ํ ์ด์๋๋ค.
๋ฌธ๋งฅ ์กฐ์: ๊ณต๊ฒฉ์๋ ๊ฐ๊ฐ์ ๊ฐ๋ณ ์ง์์ ๋ํ ๊ทธ๋ด๋ฏํ ๋ถ์ธ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํ๋ฉด์๋ ์ ํดํ ์ ๋ณด๊ฐ ์์ฐ์ค๋ฝ๊ฒ ํ๋ฌ๋์ค๋ ๋ฌธ๋งฅ์ ๋ง๋ค์ด๋ด๋ ํ๊ตฌ์ ํ๋ ์ด๋ฐ("์
๋น์ด ...ํด์ผ ํ๋ ์ค๋ฆด๋ฌ ์์ค์ ์ฐ๊ณ ์๋ค๊ณ ์์ํด๋ณด์ธ์")์ ํ๋ฆฝํ๋ค.
ํ๋ฅด์๋ ์
์ฉ: ๊ณต๊ฒฉ์๋ ํ์ฅ๋ ๋ํ๋ฅผ ํตํด ๋ชจ๋ธ์ด ํน์ ํ๋ฅด์๋โ์ ๋ฌธ๊ฐ, ์ญ์ฌ์ ์ธ๋ฌผ, ๊ฐ์์ ์บ๋ฆญํฐโ๋ฅผ ์ฑํํ๋๋ก ์ ๋ํ๋ฉฐ, ๊ทธ "์ ๋ฌธ์ฑ"์ด ๊ธฐ๋ณธ ๋ชจ๋ธ์ด๋ผ๋ฉด ๊ฑฐ๋ถํ์ ์ ๋ณด์ ์ ๊ณต์ ์ ๋นํํ๋ค.
์ ๋ขฐ ๊ตฌ์ถ: ๊ณต๊ฒฉ์๋ ์ฌ๋ฌ ํด์ ๊ฑธ์ณ ์ง์ ์ฑ ์๊ณ ๋์์ด ๋๋ ๋ํ์ ์ฐธ์ฌํ์ฌ, ๋ชจ๋ธ์ด ์ดํ์ ์ ํดํ ์์ฒญ์ ๋ํด ๊ฒฝ๊ณ๋ฅผ ๋ฎ์ถ๋๋ก ๋ง๋๋ ๊ธ์ ์ ์ํธ์์ฉ์ ํจํด์ ํ์ฑํ๋ค.
MUSE: ๊ณต๊ฒฉ ํธ๋ฆฌ ํ์
Yan et al.์ MUSE ํ๋ ์์ํฌ๋ ๋ชฌํ
์นด๋ฅผ๋ก ํธ๋ฆฌ ํ์(Monte Carlo Tree Search, MCTS)์ ๋ค์ค ํด ๋ ๋ ํ ๊ตฌ์ฑ์ ์ ์ฉํ๋คโ๊ณต๊ฒฉ์ ๊ฐ ํด์ด ๊ฐ๋ฅํ ๋ํ ๊ถค์ ์ ํธ๋ฆฌ์์ ํ๋์ ๋ถ๊ธฐ๋ฅผ ๋ํ๋ด๋ ์์ฐจ์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ก ์ทจ๊ธํ๋ค.
์ด ์ ๊ทผ ๋ฐฉ์์ด ๊ฐ๋ ฅํ ์ด์ ๋ ์ฒด๊ณ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ค์ค ํด ๊ณต๊ฒฉ์ ์๋์ผ๋ก ์ค๊ณํ๊ธฐ ์ํด ์ธ๊ฐ ๋ ๋ ํ์์๊ฒ ์์กดํ๋(๋น์ฉ์ด ๋ง์ด ๋ค๊ณ , ๋๋ฆฌ๋ฉฐ, ๋ถ์์ ํ ๊ณผ์ ) ๋์ , MUSE๋ ๊ฐ๋ฅํ ๋ํ ์ ๋ต์ ๊ณต๊ฐ์ ์๋์ผ๋ก ํ์ํ์ฌ ์ด๋ค ํ๋กฌํํธ ์ํ์ค๊ฐ ์์ ์ฑ ์ ๋ ฌ์ ๊ฐ์ฅ ํจ๊ณผ์ ์ผ๋ก ์ ํ์ํค๋์ง ํ๊ฐํ๋ค.
MCTS๋ ๋ ๋ ํ ๊ตฌ์ฑ์ ๋ ๊ฐ์ง ํต์ฌ์ ์ธ ์์ฑ์ ์ ๊ณตํ๋ค:
ํ์-ํ์ฉ ๊ท ํ: ์๊ณ ๋ฆฌ์ฆ์ ์๋ก์ด ๊ณต๊ฒฉ ์ ๋ต์ ํ์ํ๋ ๊ฒ(์์์น ๋ชปํ ์ทจ์ฝ์ ์ ๋ฐ๊ฒฌํ ์ ์๋)๊ณผ ์๋ ค์ง ํจ๊ณผ์ ์ธ ์ ๋ต์ ํ์ฉํ๋ ๊ฒ(์๋ ค์ง ์ฝ์ ์ ํจ์จ์ ์ผ๋ก ๊ฒ์ฆํ๋) ์ฌ์ด์ ๊ท ํ์ ์ ์งํ๋ค.
๊น์ด: MCTS๋ ์ ๋งํ์ง ์์ ๋ถ๊ธฐ๋ฅผ ๊ฐ์ง์น๊ธฐํ๊ณ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ถค์ ์ ํ์์ ์ง์คํจ์ผ๋ก์จ ๊ฐ๋ฅํ ๋ค์ค ํด ๋ํ์ ์กฐํฉ์ ํญ๋ฐ์ ์์ฐ์ค๋ฝ๊ฒ ์ฒ๋ฆฌํ๋ค.๋ฐ๊ฒฌ๋ ๊ณต๊ฒฉ ๊ฒฝ๋ก๋ ์ข
์ข
๋ช
ํํ์ง ์์ผ๋ฉฐ, ์ธ๊ฐ ๋ ๋ ํ์์ด ๋ช
์์ ์ผ๋ก ๊ณ ๋ คํ์ง ์์ ๋ํ ์ ๋ต์ ํฌํจํ๋ค. ์ด๊ฒ์ด ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ (์๋ก์ด ์ทจ์ฝ์ ๋ฐ๊ฒฌ)์ด์ ํ๊ณ(ํด๋น ๊ณต๊ฒฉ์ด ํ์ค์ ์ธ ์ธ๊ฐ ํ๋์ ๋ํํ์ง ์์ ์ ์์)์ด๋ค.
์์ด์ ํธ ์์ค์ปฌ๋ ์ด์
AJAR(Dou & Yang, 2026)๋ ๋ ๋ ํ ๋ถ์ผ์์ ๊ฐ์ฅ ์ค๋ํ ๋ฐ์ ์ ์๊ฐํ๋ค: ์ฑ๋ด์ด ์๋ AI ์์ด์ ํธ์ ๋ํ ๊ณต๊ฒฉ์ด๋ค. LLM์ด ํ
์คํธ ์์ฑ๊ธฐ์์ ๋๊ตฌ ์ ๊ทผ ๊ถํ์ ๊ฐ์ง ์์จ ์์ด์ ํธ๋ก ์ ํ๋จ์ ๋ฐ๋ผ, ํ์ฅ์ ์ํ์ฑ์ "์ ํดํ ํ
์คํธ ์์ฑ"์์ "์ ํดํ ํ๋ ์คํ"์ผ๋ก ๊ฒฉ์๋๋ค.
๋ค์ค ํด ๋ํ๋ฅผ ํตํด ์กฐ์ข
๋ ์์ด์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ถํ๋ ๋ฐฉ๋ฒ์ ๋จ์ํ ์ค๋ช
ํ๋ ๊ฒ์ ๊ทธ์น์ง ์๊ณ , ์ฌ์ฉ ๊ฐ๋ฅํ ๋๊ตฌ๋ฅผ ์ด์ฉํด ์ ์ถ์ ์คํํ ์๋ ์๋ค. ๋ชจ๋ธ์ด ์์ ์ ์ถ๋ ฅ์ ๋ฐ๋ผ ํ๋ํ ์ ์์ ๋, ์ ๋ณด ์ํ๊ณผ ์ด์ ์ํ ์ฌ์ด์ ๊ฒฝ๊ณ๋ ๋ถ๊ดด๋๋ค.
AJAR์ ์ ์ํ ์ํคํ
์ฒ๋ ํ
์คํธ ์กฐ์๊ณผ ๋๊ตฌ ์ฌ์ฉ ์ต์คํ๋ก์์ ๊ฒฐํฉํ ๊ณต๊ฒฉ ์ ๋ต์ ์๋์ผ๋ก ๋ฐ๊ฒฌํ๋ฉฐ, ๋จ์ผ ํด ๋๊ตฌ ํธ์ถ์ ์ํด ์ค๊ณ๋ ์์ด์ ํธ ์์ ์์คํ
์ด ์ ํดํ ๋๊ตฌ ์ฌ์ฉ์ ํฉ๋ฒ์ ์ธ ์ํฌํ๋ก์ฐ ๋จ๊ณ๋ก ์ฌ๊ตฌ์ฑํ๋ ๋ค์ค ํด ์ปจํ
์คํธ ์กฐ์์ ์ฒด๊ณ์ ์ผ๋ก ์ทจ์ฝํ๋ค๋ ๊ฒ์ ๋ฐํ๋ธ๋ค.
AutoRedTeamer: ๊ตฐ๋น ๊ฒฝ์์ ๊ฐ์ํ
Zhou et al.์ AutoRedTeamer๋ ์๋ํ๋ ๋ ๋ ํ์ ์์ฐ์ค๋ฌ์ด ์ข
์ฐฉ์ ์ ๋ํํ๋ค: ๊ณต๊ฒฉ์ ๋ฐ๊ฒฌํ ๋ฟ๋ง ์๋๋ผ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ ๋์ ๊ณต๊ฒฉ์ ์ฐพ๊ธฐ ์ํด ๋ฐ๊ฒฌ ๋ด์ฉ์ผ๋ก๋ถํฐ ํ์ตํ๋ AI ์์คํ
์ด๋ค. ํ์ ํ์ต(lifelong learning) ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ AutoRedTeamer๋ ์ฑ๊ณต์ ์ธ ๊ณต๊ฒฉ ์ ๋ต์ ์ฆ๊ฐํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ ์งํ๊ณ , ์ด๋ฅผ ๊ฒฐํฉํ์ฌ ์๋ ค์ง ์ ๋ต์ ๋ง์ถฐ ์กฐ์ ๋ ๋ฐฉ์ด๋ฅผ ํํผํ๋ ์๋ก์ด ๊ณต๊ฒฉ์ ์์ฑํ๋ค.
์ด๋ ๊ณต๊ฒฉ์ ์ ๊ตํจ์ด ์ง์์ ์ผ๋ก ์ฑ์ฅํ๋ ๊ฐ์ํ๋ ๊ตฐ๋น ๊ฒฝ์์ ์๋ฏธํ๋ค. ์ ์ ๋ฐฉ์ดโ๊ณ ์ ๋ ์์ ๋ถ๋ฅ๊ธฐ, ํ๋์ฝ๋ฉ๋ ๊ฑฐ๋ถ ํจํดโ๋ ์ ์ํ๋ ์ ์์ ๋ํด ๊ทผ๋ณธ์ ์ผ๋ก ๋ถ์ ์ ํ๋ค. ๋ฐฉ์ด๋ ๋๋ฑํ๊ฒ ์ ์์ ์ด์ด์ผ ํ๋ฉฐ, ์๋ก์ด ๊ณต๊ฒฉ ํจํด์ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๊ณ ์ด์ ๋์ํ์ฌ ์์ ๋ฉ์ปค๋์ฆ์ ์
๋ฐ์ดํธํด์ผ ํ๋ค.
์ฃผ์ฅ๊ณผ ์ฆ๊ฑฐ
<
| ์ฃผ์ฅ | ์ฆ๊ฑฐ | ํ์ |
|---|
| ๋ค์ค ํด ์์ ์ฑ์ ๋จ์ผ ํด๋ณด๋ค ๊ทน์ ์ผ๋ก ๋์๋ค | MTSA๋ ๋ค์ค ํด ๋ํ์ ๊ฑธ์ณ ์๋นํ ์์ ์ฑ ์ ํ๋ฅผ ์
์ฆํ๋ค | โ
๊ฐํ๊ฒ ์ง์ง๋จ |
| MCTS๋ ์ธ๊ฐ์ด ๋์น๋ ๊ณต๊ฒฉ์ ๋ฐ๊ฒฌํ๋ค | MUSE๋ ๋ช
ํํ์ง ์์ ๋ค์ค ํด ์ ๋ต์ ๋ฐ๊ฒฌํ๋ค | โ
์ง์ง๋จ |
| ์์ด์ ํธ ํ์ฅ์ (ํ
์คํธ๋ฟ๋ง ์๋๋ผ) ์ค์ ํผํด๋ฅผ ์ผ๊ธฐํ ์ ์๋ค | AJAR๋ ๋ํ ์กฐ์์ ํตํ ๋๊ตฌ ์ฌ์ฉ ์ต์คํ๋ก์์ ์
์ฆํ๋ค | โ
์ง์ง๋จ (๊ฐ๋
์ ) |
| ์ ์ ๋ฐฉ์ด๋ ์ ์ํ ๊ณต๊ฒฉ์ ์ ํญํ๋ค | AutoRedTeamer๋ ์ง์์ ์ธ ์ ์์ ํตํด ๊ณ ์ ๋ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฐํํ๋ค | โ ๋ฐ๋ฐ๋จ |
| ํ์ฌ์ ๋ค์ค ํด ์์ ๋ฒค์น๋งํฌ๋ ์ ์ ํ๋ค | ๋ฒค์น๋งํฌ ์ปค๋ฒ๋ฆฌ์ง์ ์ค์ ๊ณต๊ฒฉ ํ๋ฉด ์ฌ์ด์ ๊ฑฐ๋ํ ๊ฒฉ์ฐจ | โ ๋ฐ๋ฐ๋จ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
๋ํ๋ฅผ ์ํ ์ฌ์ธต ๋ฐฉ์ด: ๋ค์ค ํด ์์ ์ ์ํ ์ฌ๋ฐ๋ฅธ ์ํคํ
์ฒ๋ ๋ฌด์์ธ๊ฐ? ํด๋ณ ๋ถ๋ฅ๊ธฐ๋ ์คํจํ๋ค. ํ์ฌ ํด๋ง์ด ์๋๋ผ ๊ถค์ ์ ๋ถ์ํ๋ ๋ํ ์์ค์ ์์ ๋ชจ๋ํฐ๋ฅผ ์ถ๊ฐํด์ผ ํ๋๊ฐ?์ฌ์ฉ์ ์๋ ๋ชจ๋ธ๋ง: ์ง์ ์ผ๋ก ํธ๊ธฐ์ฌ ์๋ ์ฌ์ฉ์(๋ฐ์์ ๋ํด ์ง๋ฌธํ๋ ํํ ์ ๊ณต ํ์)์ ํด๋ฅผ ๋ผ์น๊ธฐ ์ํด ์ ๋ต์ ์ผ๋ก ์์ค์ปฌ๋ ์ด์
ํ๋ ์ฌ์ฉ์๋ฅผ ๊ตฌ๋ณํ ์ ์๋๊ฐ? ์ด ๊ตฌ๋ณ์ ๊ฑฐ์ง ์์ฑ(false positive)๊ณผ ๊ฑฐ์ง ์์ฑ(false negative) ๋ชจ๋๋ฅผ ํผํ๋ ๋ฐ ๋งค์ฐ ์ค์ํ๋ค.๊ณต๊ฐ ๋๋ ๋ง: ์๋ํ๋ ๋ ๋ ํ ๋๊ตฌ๋ ์๋ก์ด ๊ณต๊ฒฉ์ ๋ฐ๊ฒฌํ๋ค. ๋ฐ๊ฒฌ๋ ๊ณต๊ฒฉ ์ ๋ต์ ๊ณต๊ฐ(๋ฐฉ์ด ์ฐ๊ตฌ ๊ฐ๋ฅ)๋์ด์ผ ํ๋๊ฐ, ์๋๋ฉด ์ ํ(์ค์ฉ ๋ฐฉ์ง)๋์ด์ผ ํ๋๊ฐ? ์ ๋ณด ๋ณด์ ์ปค๋ฎค๋ํฐ๋ ์์ญ ๋
๊ฐ ์ฑ
์ ์๋ ๊ณต๊ฐ์ ๋ํด ๋
ผ์ํด ์์ง๋ง, LLM ๊ณต๊ฒฉ์ ๊ท๋ชจ์ ์ ๊ทผ์ฑ์ ์๋ก์ด ์ญํ์ ๋์
ํ๋ค.
๊ท์ ์ ํจ์: ํ์ฌ ์์ ๋ฒค์น๋งํฌ๋ฅผ ํต๊ณผํ ๋ชจ๋ธ์ด ๋ค์ค ํด ํ๊ฒฝ์์ ๋ช
๋ฐฑํ ์์ ํ์ง ์๋ค๊ณ ์
์ฆ๋๋ค๋ฉด, ๊ท์ ๊ธฐ๊ด์ ๋ค์ค ํด ํ๊ฐ๋ฅผ ์๋ฌดํํด์ผ ํ๋๊ฐ? ๊ธฐ์ค์ ์ด๋ป๊ฒ ์ค์ ๋์ด์ผ ํ๋๊ฐ?์์ ์ฑ์ ๊ณ์ฐ ๋น์ฉ: ์ค์๊ฐ์ผ๋ก ๋ชจ๋ ๋ํ ํด์ ์์ ์ฑ์ ๋ชจ๋ํฐ๋งํ๋ฉด ์ง์ฐ ์๊ฐ๊ณผ ๋น์ฉ์ด ์ฆ๊ฐํ๋ค. ์์ญ์ต ๊ฑด์ ์ฟผ๋ฆฌ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์์ ์ด ๋น์ฉ์ ์๋นํ๋ค. ์ฒ ์ ํ๋ฉด์๋ ํจ์จ์ ์ธ ์์ ์์คํ
์ ์ด๋ป๊ฒ ๊ตฌ์ถํ ๊ฒ์ธ๊ฐ?์ฐ๊ตฌ์๋ฅผ ์ํ ์์ฌ์
AI ์์ ์ฐ๊ตฌ์์๊ฒ ์์ด ๋ค์ค ํด ๋ ๋ ํ(red teaming)์ ๋ ์ด์ ์ ํ ์ฌํญ์ด ์๋๋ฉฐ, ๋ํํ AI์ ์ต์ ์คํ ๊ฐ๋ฅํ ํ๊ฐ ๊ธฐ์ค์ด๋ค. ๋จ์ผ ํด ๋ฒค์น๋งํฌ๋ ๋ํ ํ๊ฒฝ์ ๋ฐฐํฌ๋๋ ๋ชจ๋ ๋ชจ๋ธ์ ์ฃผ์ ์์ ์งํ๋ก์ ํ๊ธฐ๋์ด์ผ ํ๋ค.
๋ฐฐํฌ๋ ์์คํ
์ ๊ฒฝ์ฐ, MTSA๊ฐ ๋ฌธ์ํํ ๊ทน์ ์ธ ๋ค์ค ํด ์ฑ๋ฅ ์ ํ๋ ํ์ฌ์ ์์ ๋ง์ง์ด ๊ฒ์ผ๋ก ๋ณด์ด๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋ํํ AI๋ฅผ ๋ฐฐํฌํ๋ ์กฐ์ง์ ๊ฐ๋ณ์ ์ธ ์ ํด ์ฟผ๋ฆฌ๋ฟ๋ง ์๋๋ผ ์์ค์ปฌ๋ ์ด์
ํจํด์ ๊ฐ์งํ๋ ๋ํ ์์ค์ ๋ชจ๋ํฐ๋ง์ ๊ตฌํํด์ผ ํ๋ค.
๋ ๋์ ์ปค๋ฎค๋ํฐ์ ๊ด์ ์์, ์ฑ๋ด ์์ ์์ ์์ด์ ํธ ์์ ์ผ๋ก์ ์ ํ์ ์ํ์ ์ง์ ๋ณํ๋ฅผ ๋ํ๋ธ๋ค. AI ์์คํ
์ด ๋จ์ํ ๋งํ๋ ๊ฒ์ ๋์ด ํ๋ํ ์ ์๊ฒ ๋๋ฉด, ์์ ์คํจ์ ๊ฒฐ๊ณผ๋ ๋ช
์ ํผ์์์ ์ด์ ํผํด๋ก ์ด๋ํ๋ค. ๋ค์ค ํด ๊ณต๊ฒฉ ํ๋ฉด์ ์ด๋ฌํ ์คํจ๊ฐ ๋ฐ์ํ๋ ๊ณณ์ด๋ฉฐ, ํ์ฌ์ ๋ฐฉ์ด ์ํ๋ ์ด ์ํ์ ๋์ํ๊ธฐ์ ๋ถ์ถฉ๋ถํ๋ค.
References (4)
[1] Guo, W., Li, J., Wang, W. et al. (2025). MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming. arXiv:2505.17147.
[2] Yan, S., Zeng, L., Wu, X. et al. (2025). MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety. arXiv:2509.14651.
[3] Zhou, A., Wu, K., Pinto, F. et al. (2025). AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration. arXiv:2503.15754.
[4] Dou, Y. & Yang, W. (2026). AJAR: Adaptive Jailbreak Architecture for Red-teaming. arXiv:2601.10971.