This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The alignment of text-only language models was hard enough. The alignment of multimodal modelsโsystems that process images, video, and text simultaneouslyโis harder by an order of magnitude. An image can contain harmful content that is invisible to text-based safety filters. A benign text query combined with a manipulated image can elicit responses that neither the query nor the image would trigger alone. The attack surface is not additive; it is multiplicative.
Ji et al.'s Safe RLHF-V, published in two complementary papers, represents the most serious attempt to date at principled multimodal safety alignment. But Lindstrรถm et al.'s sociotechnical critique in Ethics and Information Technology argues that the entire enterprise of alignment through human feedback may be built on foundations that cannot bear the weight placed upon them.
The tension between these positionsโone engineering safety solutions, the other questioning whether such solutions are conceptually coherentโdefines the frontier of AI alignment research in 2025.
The Multimodal Safety Gap
Text-only safety alignment works, to a first approximation, by teaching the model which kinds of text outputs are acceptable. The model learns that generating instructions for weapons is unacceptable regardless of how cleverly the request is phrased. But multimodal models process imagesโand images introduce an entirely new dimension of risk.
Consider: a user uploads an image of a household chemical and asks "What happens if I combine this with bleach?" The image alone is benign. The question alone is benign. Together, they constitute a request for instructions to create toxic gas. Text-only safety classifiers see only the question and pass it through. The multimodal model, seeing both image and text, must recognize the compositional riskโa capability that requires understanding not just what the image contains but what it means in the context of the query.
Safe RLHF-V addresses this through a decoupled optimization framework. Rather than training a single reward model that conflates helpfulness and safety (as standard RLHF does), they train separate reward and cost models:
- Reward model: Evaluates how helpful and informative a response is
- Cost model: Evaluates how potentially harmful a response is
The policy is then optimized to maximize reward
subject to safety constraintsโa constrained optimization problem that avoids the failure mode where a model becomes "safe" by becoming uselessly cautious. The constraint threshold is tunable, allowing deployment-specific calibration of the helpfulness-safety tradeoff.
The Helpfulness-Safety Tradeoff Is Real
The most important empirical finding in Safe RLHF-V is that the helpfulness-safety tradeoff is not a myth or an artifact of bad engineering. There exists a genuine Pareto frontier: beyond a certain safety level, further safety improvements necessarily degrade helpfulness. A model that refuses to discuss any topic that could conceivably be misused is safe but useless. A model that answers every question honestly is useful but unsafe.
The decoupled framework makes this tradeoff explicit and navigable. Different deployments can choose different operating points: a children's educational application operates deep in the safe territory; a research assistant for chemistry professors operates closer to the helpful frontier. The key insight is that this is a policy decision, not an engineering decisionโand the framework makes it possible for policymakers to make it explicitly rather than having it baked implicitly into training.
The Sociotechnical Critique
Lindstrรถm et al. deliver a critique that the safety engineering community cannot dismiss. Their argument proceeds in three steps:
First, the "human" in RLHF is not a representative sample of humanity. Feedback labelers are typically English-speaking gig workers from specific cultural and economic contexts. Their preferences reflect their worldviewโnot a universal consensus on what constitutes helpful, harmless, and honest behavior. A response deemed "harmless" by an American labeler may be considered harmful in a different cultural context, and vice versa.
Second, the feedback mechanism itself is distortive. Labelers make pairwise comparisons between responsesโbut the comparison format forces binary choices between nuanced alternatives, compressing a multidimensional quality judgment into a single bit. Important aspects of quality (accuracy, completeness, cultural sensitivity) that labelers cannot easily articulate are systematically lost.
Third, alignment through feedback is fundamentally conservative. RLHF optimizes for the average preferences of the labeler pool, systematically suppressing minority viewpoints and unconventional perspectives. A model aligned to average American sensibilities may be actively misaligned with the values of users from different cultural, religious, or political traditions.
The conclusion is not that RLHF should be abandonedโbut that it should be understood as a culturally situated technique that produces culturally situated models. Claims of "alignment with human values" should be understood as claims of alignment with specific humans' values, and the gap between these two claims matters profoundly for global deployment.
High-Confidence Safety Constraints
Chittepu et al. propose an alternative formulation that partially addresses the sociotechnical critique. Their High-Confidence Safe RLHF (HC-RLHF) replaces soft safety preferences with hard safety constraintsโformal guarantees that certain categories of harmful output are blocked with high probability, regardless of the helpfulness reward.
The distinction is subtle but important. Standard safe RLHF treats safety as a preference to be balanced against helpfulness. HC-RLHF treats safety as a constraint that cannot be violatedโcertain outputs are simply prohibited, regardless of how helpful they might be. This eliminates the failure mode where a sufficiently "helpful" response can override safety considerations.
The tradeoff is that HC-RLHF requires explicit specification of what constitutes a safety violationโa specification task that reintroduces the cultural relativity problem Lindstrรถm et al. identify. Who decides which outputs are absolutely prohibited? The answer cannot be value-neutral.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Multimodal models face unique safety risks beyond text | Image-text compositional attacks documented | โ
Strongly supported |
| Decoupled helpfulness-safety optimization is superior to joint training | Safe RLHF-V shows improved Pareto frontier | โ
Supported |
| The helpfulness-safety tradeoff is fundamentally unavoidable | Empirical Pareto frontier confirmed across settings | โ
Supported |
| RLHF achieves culturally universal alignment | Lindstrรถm et al. demonstrate cultural specificity of preferences | โ Refuted |
| Hard safety constraints are preferable to soft preferences | HC-RLHF provides formal guarantees but requires explicit specification | โ ๏ธ Context-dependent |
Open Questions
Multimodal adversarial attacks: The image-text attack surface is barely explored. As multimodal models are deployed in content moderation, healthcare, and education, what novel attack vectors will emerge?Cultural pluralism in safety: Can we build models that are simultaneously safe across different cultural contexts? Or must we accept culture-specific alignment, with different model versions for different regions?Dynamic safety: Safety standards evolve. Content considered acceptable in 2020 may be considered harmful in 2025, and vice versa. How do we build alignment systems that adapt to shifting societal norms?The safety theater problem: If models become very good at appearing safe while remaining subtly manipulable, we create a false sense of security. How do we distinguish genuine safety from safety theater?User consent and autonomy: At what point does safety alignment become paternalism? If a consenting adult requests information that is legal but potentially dangerous, should the model comply? The answer depends on values that reasonable people disagree about.What This Means for Your Research
For AI safety researchers, Safe RLHF-V provides the most mature framework for multimodal alignment, but Lindstrรถm et al.'s critique demands intellectual honesty about its limitations. The field needs both better engineering (decoupled optimization, formal constraints) and better epistemology (understanding whose values are being encoded and what that implies for global deployment).
For practitioners deploying multimodal models, the practical takeaway is sobering: text-only safety alignment is insufficient for models that process images. The attack surface is larger, the failure modes are more varied, and the current solutionsโwhile representing genuine progressโremain incomplete.
The fundamental lesson of 2025's multimodal safety research is that alignment is not a technical problem with a technical solution. It is a sociotechnical problem that requires ongoing negotiation between engineering capability, cultural values, and the diverse needs of a global user base. The researchers who acknowledge this complexity will contribute more to genuine safety than those who treat alignment as an optimization problem to be solved and shipped.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ, ์ฃผ์ฅ์ ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
Safe RLHF-V: ๋ฉํฐ๋ชจ๋ฌ AI๋ฅผ ์ ์ตํ๋ฉด์๋ ๋ฌดํดํ๊ฒ ๋ง๋๋ ๋ฏธํด๊ฒฐ ๋ฌธ์
ํ
์คํธ ์ ์ฉ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ ฌ(alignment)๋ง ํด๋ ์ถฉ๋ถํ ์ด๋ ค์ด ๊ณผ์ ์๋ค. ์ด๋ฏธ์ง, ์์, ํ
์คํธ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ์์คํ
์ธ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ ๋ ฌ์ ๊ทธ๋ณด๋ค ํ ์ฐจ์ ๋ ์ด๋ ต๋ค. ์ด๋ฏธ์ง์๋ ํ
์คํธ ๊ธฐ๋ฐ ์์ ํํฐ๊ฐ ํ์งํ ์ ์๋ ์ ํด ์ฝํ
์ธ ๊ฐ ํฌํจ๋ ์ ์๋ค. ๋ฌดํดํ ํ
์คํธ ์ง์์ ์กฐ์๋ ์ด๋ฏธ์ง๊ฐ ๊ฒฐํฉ๋๋ฉด, ์ง์ ๋จ๋
์ผ๋ก๋ ์ด๋ฏธ์ง ๋จ๋
์ผ๋ก๋ ์ ๋ฐํ์ง ์์ ์๋ต์ ์ด๋์ด๋ผ ์ ์๋ค. ๊ณต๊ฒฉ ํ๋ฉด(attack surface)์ ๊ฐ์ฐ์ ์ด์ง ์๊ณ ๊ณฑ์
์ ์ด๋ค.
Ji et al.์ Safe RLHF-V๋ ๋ ํธ์ ์ํธ ๋ณด์์ ์ธ ๋
ผ๋ฌธ์ผ๋ก ๋ฐํ๋์์ผ๋ฉฐ, ์์น์ ์
๊ฐํ ๋ฉํฐ๋ชจ๋ฌ ์์ ์ ๋ ฌ์ ํฅํ ํ์ฌ๊น์ง ๊ฐ์ฅ ์ง์งํ ์๋๋ฅผ ๋ํํ๋ค. ๊ทธ๋ฌ๋ Ethics and Information Technology์ ๊ฒ์ฌ๋ Lindstrรถm et al.์ ์ฌํ๊ธฐ์ ์ (sociotechnical) ๋นํ์, ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ์ ๋ ฌ์ด๋ผ๋ ๊ธฐํ ์ ์ฒด๊ฐ ๊ทธ ๋ฌด๊ฒ๋ฅผ ๊ฐ๋นํ ์ ์๋ ํ ๋ ์์ ์ธ์์ ธ ์์์ง๋ ๋ชจ๋ฅธ๋ค๊ณ ์ฃผ์ฅํ๋ค.
์์ ํด๋ฒ์ ๊ณตํ์ ์ผ๋ก ๊ตฌํํ๋ ค๋ ์
์ฅ๊ณผ ๊ทธ๋ฌํ ํด๋ฒ์ด ๊ฐ๋
์ ์ผ๋ก ์ผ๊ด์ฑ์ ๊ฐ์ง ์ ์๋์ง๋ฅผ ์๋ฌธ์ํ๋ ์
์ฅ ์ฌ์ด์ ์ด ๊ธด์ฅ์ด, 2025๋
AI ์ ๋ ฌ ์ฐ๊ตฌ์ ์ต์ ์ ์ ์ ์ํ๋ค.
๋ฉํฐ๋ชจ๋ฌ ์์ ๊ฒฉ์ฐจ
ํ
์คํธ ์ ์ฉ ์์ ์ ๋ ฌ์ ์ฒซ ๋ฒ์งธ ๊ทผ์ฌ๋ก์, ์ด๋ค ์ข
๋ฅ์ ํ
์คํธ ์ถ๋ ฅ์ด ํ์ฉ ๊ฐ๋ฅํ์ง๋ฅผ ๋ชจ๋ธ์๊ฒ ๊ฐ๋ฅด์น๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. ๋ชจ๋ธ์ ์์ฒญ์ด ์๋ฌด๋ฆฌ ๊ต๋ฌํ๊ฒ ํํ๋๋๋ผ๋ ๋ฌด๊ธฐ ์ ์กฐ ์ง์นจ์ ์์ฑํ๋ ๊ฒ์ ํ์ฉ๋์ง ์๋๋ค๋ ๊ฒ์ ํ์ตํ๋ค. ๊ทธ๋ฌ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ์ด๋ฏธ์ง๋ ์์ ํ ์๋ก์ด ์ฐจ์์ ์ํ์ ๋์
ํ๋ค.
๋ค์์ ๊ณ ๋ คํด ๋ณด์. ์ฌ์ฉ์๊ฐ ๊ฐ์ ์ฉ ํํ ๋ฌผ์ง ์ด๋ฏธ์ง๋ฅผ ์
๋ก๋ํ๊ณ "์ด๊ฒ์ ํ๋ฐฑ์ ์ ์์ผ๋ฉด ์ด๋ป๊ฒ ๋๋์?"๋ผ๊ณ ๋ฌป๋๋ค. ์ด๋ฏธ์ง ๋จ๋
์ผ๋ก๋ ๋ฌดํดํ๋ค. ์ง๋ฌธ ๋จ๋
์ผ๋ก๋ ๋ฌดํดํ๋ค. ๊ทธ๋ฌ๋ ๋์ด ํฉ์ณ์ง๋ฉด ๋
์ฑ ๊ฐ์ค๋ฅผ ๋ง๋๋ ์ง์นจ ์์ฒญ์ด ๋๋ค. ํ
์คํธ ์ ์ฉ ์์ ๋ถ๋ฅ๊ธฐ๋ ์ง๋ฌธ๋ง ๋ณด๊ณ ์ด๋ฅผ ํต๊ณผ์ํจ๋ค. ์ด๋ฏธ์ง์ ํ
์คํธ ๋ชจ๋๋ฅผ ๋ณด๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํฉ์ฑ์ (compositional) ์ํ์ ์ธ์ํด์ผ ํ๋ค. ์ด๋ ์ด๋ฏธ์ง๊ฐ ๋ฌด์์ ๋ด๊ณ ์๋์ง๋ฟ๋ง ์๋๋ผ ์ง์์ ๋งฅ๋ฝ์์ ๊ทธ๊ฒ์ด ๋ฌด์์ ์๋ฏธํ๋์ง๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ์๊ตฌํ๋ค.
Safe RLHF-V๋ ๋ถ๋ฆฌ๋ ์ต์ ํ(decoupled optimization) ํ๋ ์์ํฌ๋ฅผ ํตํด ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ํ์ค RLHF์ฒ๋ผ ์ ์ต์ฑ๊ณผ ์์ ์ฑ์ ํผ์ฌ์ํค๋ ๋จ์ผ ๋ณด์ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋์ , ๋ณ๋์ ๋ณด์ ๋ชจ๋ธ๊ณผ ๋น์ฉ ๋ชจ๋ธ์ ํ๋ จํ๋ค.
- ๋ณด์ ๋ชจ๋ธ(reward model): ์๋ต์ด ์ผ๋ง๋ ์ ์ตํ๊ณ ์ ๋ณด๊ฐ ํ๋ถํ์ง๋ฅผ ํ๊ฐํ๋ค
- ๋น์ฉ ๋ชจ๋ธ(cost model): ์๋ต์ด ์ผ๋ง๋ ์ ์ฌ์ ์ผ๋ก ์ ํดํ์ง๋ฅผ ํ๊ฐํ๋ค
๊ทธ๋ฐ ๋ค์ ์ ์ฑ
(policy)์ ์์ ์ ์ฝ ์กฐ๊ฑด์
์ถฉ์กฑํ๋ฉด์ ๋ณด์์ ์ต๋ํํ๋๋ก ์ต์ ํ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ฌด์ฉํ ์ ๋๋ก ์ ์คํด์ง๋ ๋ฐฉ์์ผ๋ก '์์ 'ํด์ง๋ ์คํจ ์์์ ๋ฐฉ์งํ๋ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ์ด๋ค. ์ ์ฝ ์๊ณ๊ฐ์ ์กฐ์ ๊ฐ๋ฅํ์ฌ, ๋ฐฐํฌ ํ๊ฒฝ๋ณ๋ก ์ ์ต์ฑ-์์ ์ฑ ํธ๋ ์ด๋์คํ๋ฅผ ๋ณด์ ํ ์ ์๋ค.
์ ์ต์ฑ-์์ ์ฑ ํธ๋ ์ด๋์คํ๋ ์ค์ฌํ๋ค
Safe RLHF-V์์ ๊ฐ์ฅ ์ค์ํ ๊ฒฝํ์ ๋ฐ๊ฒฌ์, ์ ์ต์ฑ-์์ ์ฑ ํธ๋ ์ด๋์คํ๊ฐ ํ๊ตฌ์ด๊ฑฐ๋ ๋ถ์คํ ๊ณตํ์ ์ฐ๋ฌผ์ด ์๋๋ผ๋ ๊ฒ์ด๋ค. ์ง์ ํ ํ๋ ํ ํ๋ฐํฐ์ด(Pareto frontier)๊ฐ ์กด์ฌํ๋ค: ํน์ ์์ ์์ค์ ๋์ด์๋ฉด ์์ ์ฑ์ ๋ ํฅ์์ํฌ ๊ฒฝ์ฐ ์ ์ต์ฑ์ด ํ์ฐ์ ์ผ๋ก ์ ํ๋๋ค. ์
์ฉ๋ ๊ฐ๋ฅ์ฑ์ด ์๋ ๋ชจ๋ ์ฃผ์ ์ ๋ํด ๋ต๋ณ์ ๊ฑฐ๋ถํ๋ ๋ชจ๋ธ์ ์์ ํ์ง๋ง ์ธ๋ชจ์๋ค. ๋ชจ๋ ์ง๋ฌธ์ ์์งํ๊ฒ ๋ต๋ณํ๋ ๋ชจ๋ธ์ ์ ์ฉํ์ง๋ง ์์ ํ์ง ์๋ค.
๋ถ๋ฆฌ๋ ํ๋ ์์ํฌ๋ ์ด ํธ๋ ์ด๋์คํ๋ฅผ ๋ช
์์ ์ด๊ณ ๋ค๋ฃฐ ์ ์๋ ๊ฒ์ผ๋ก ๋ง๋ ๋ค. ์๋ก ๋ค๋ฅธ ๋ฐฐํฌ ํ๊ฒฝ์ ์๋ก ๋ค๋ฅธ ์ด์ ์ง์ ์ ์ ํํ ์ ์๋ค. ์๋ ๊ต์ก์ฉ ์ ํ๋ฆฌ์ผ์ด์
์ ์์ ์์ญ ๊น์์ด ์ด์๋๊ณ , ํํ๊ณผ ๊ต์๋ฅผ ์ํ ์ฐ๊ตฌ ๋ณด์กฐ ๋๊ตฌ๋ ์ ์ต์ฑ ํ๋ฐํฐ์ด์ ๋ ๊ฐ๊น๊ฒ ์ด์๋๋ค. ํต์ฌ์ ์ธ ํต์ฐฐ์ ์ด๊ฒ์ด ๊ณตํ์ ๊ฒฐ์ ์ด ์๋๋ผ ์ ์ฑ
์ ๊ฒฐ์ ์ด๋ผ๋ ์ ์ด๋ฉฐ, ์ด ํ๋ ์์ํฌ๋ ์ ์ฑ
์
์์๋ค์ด ํ๋ จ ๊ณผ์ ์ ์๋ฌต์ ์ผ๋ก ๋ด์ฌ๋๋ ๋ฐฉ์์ด ์๋๋ผ ๋ช
์์ ์ผ๋ก ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๊ฒ ํ๋ค.
์ฌํ๊ธฐ์ ์ ๋นํ
Lindstrรถm ๋ฑ์ ์์ ๊ณตํ ์ปค๋ฎค๋ํฐ๊ฐ ๋ฌต๊ณผํ ์ ์๋ ๋นํ์ ์ ๊ธฐํ๋ค. ๊ทธ๋ค์ ๋
ผ์ฆ์ ์ธ ๋จ๊ณ๋ก ์งํ๋๋ค.
์ฒซ์งธ, RLHF์์์ "์ธ๊ฐ"์ ์ธ๋ฅ์ ๋ํ์ ์ธ ํ๋ณธ์ด ์๋๋ค. ํผ๋๋ฐฑ ๋ ์ด๋ธ๋ฌ(labeler)๋ ๋์ฒด๋ก ํน์ ๋ฌธํ์ ยท๊ฒฝ์ ์ ๋งฅ๋ฝ์ ์ง๋ ์์ด๊ถ ๊ธฑ ๋
ธ๋์(gig worker)๋ค์ด๋ค. ๊ทธ๋ค์ ์ ํธ๋ ์์ ๋ค์ ์ธ๊ณ๊ด์ ๋ฐ์ํ ๋ฟ, ๋์์ด ๋๊ณ (helpful), ๋ฌดํดํ๋ฉฐ(harmless), ์ ์งํ(honest) ํ๋์ด ๋ฌด์์ธ์ง์ ๋ํ ๋ณดํธ์ ํฉ์๋ฅผ ๋๋ณํ์ง ์๋๋ค. ๋ฏธ๊ตญ์ธ ๋ ์ด๋ธ๋ฌ๊ฐ "๋ฌดํดํ๋ค"๊ณ ํ๋จํ ์๋ต์ด ๋ค๋ฅธ ๋ฌธํ์ ๋งฅ๋ฝ์์๋ ์ ํดํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ ์ ์์ผ๋ฉฐ, ๊ทธ ๋ฐ๋์ ๊ฒฝ์ฐ๋ ๋ง์ฐฌ๊ฐ์ง์ด๋ค.
๋์งธ, ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ ์์ฒด๊ฐ ์๊ณก์ ์ผ์ผํจ๋ค. ๋ ์ด๋ธ๋ฌ๋ ์๋ต๋ค ๊ฐ์ ์๋ณ ๋น๊ต(pairwise comparison)๋ฅผ ์ํํ๋๋ฐ, ์ด ๋น๊ต ํ์์ ๋ฏธ๋ฌํ ์ฐจ์ด๊ฐ ์๋ ๋์๋ค ์ฌ์ด์์ ์ด์ง์ ์ ํ์ ๊ฐ์ํจ์ผ๋ก์จ ๋ค์ฐจ์์ ์ธ ํ์ง ํ๋จ์ ๋จ 1๋นํธ๋ก ์์ถํ๋ค. ๋ ์ด๋ธ๋ฌ๊ฐ ์ฝ๊ฒ ํํํ๊ธฐ ์ด๋ ค์ด ํ์ง์ ์ค์ํ ์ธก๋ฉด๋ค(์ ํ์ฑ, ์์ ์ฑ, ๋ฌธํ์ ๋ฏผ๊ฐ์ฑ)์ ์ฒด๊ณ์ ์ผ๋ก ์์ค๋๋ค.
์
์งธ, ํผ๋๋ฐฑ์ ํตํ ์ ๋ ฌ(alignment)์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ณด์์ ์ด๋ค. RLHF๋ ๋ ์ด๋ธ๋ฌ ํ(pool)์ ํ๊ท ์ ์ ํธ๋ฅผ ์ต์ ํํ๋ฏ๋ก, ์์ ๊ด์ ๊ณผ ๋น๊ด์ต์ ์ธ ์๊ฐ์ ์ฒด๊ณ์ ์ผ๋ก ์ต์ํ๋ค. ํ๊ท ์ ์ธ ๋ฏธ๊ตญ์ธ์ ๊ฐ์์ฑ์ ์ ๋ ฌ๋ ๋ชจ๋ธ์ ์์ดํ ๋ฌธํ์ ยท์ข
๊ต์ ยท์ ์น์ ์ ํต์ ์ง๋ ์ฌ์ฉ์๋ค์ ๊ฐ์น์๋ ์ ๊ทน์ ์ผ๋ก ๋ถ์ผ์นํ ์ ์๋ค.
๊ฒฐ๋ก ์ RLHF๋ฅผ ํ๊ธฐํด์ผ ํ๋ค๋ ๊ฒ์ด ์๋๋ผ, RLHF๊ฐ ๋ฌธํ์ ์ผ๋ก ์์น ์ง์ด์ง(culturally situated) ๋ชจ๋ธ์ ์์ฑํ๋ ๋ฌธํ์ ์ผ๋ก ์์น ์ง์ด์ง ๊ธฐ๋ฒ์ผ๋ก ์ดํด๋์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. "์ธ๊ฐ์ ๊ฐ์น์์ ์ ๋ ฌ"์ด๋ผ๋ ์ฃผ์ฅ์ ํน์ ์ธ๊ฐ๋ค์ ๊ฐ์น์์ ์ ๋ ฌ์ด๋ผ๋ ์ฃผ์ฅ์ผ๋ก ์ดํด๋์ด์ผ ํ๋ฉฐ, ์ด ๋ ์ฃผ์ฅ ์ฌ์ด์ ๊ฐ๊ทน์ ์ ์ธ๊ณ์ ๋ฐฐํฌ์ ์์ด ์ฌ๋ํ ์๋ฏธ๋ฅผ ์ง๋๋ค.
๊ณ ์ ๋ขฐ ์์ ์ ์ฝ ์กฐ๊ฑด (High-Confidence Safety Constraints)
Chittepu ๋ฑ์ ์ฌํ๊ธฐ์ ์ (sociotechnical) ๋นํ์ ๋ถ๋ถ์ ์ผ๋ก ํด์ํ๋ ๋์์ ์ ์ํ๋ฅผ ์ ์ํ๋ค. ๊ทธ๋ค์ ๊ณ ์ ๋ขฐ ์์ RLHF(HC-RLHF, High-Confidence Safe RLHF) ๋ ์ฐ์ฑ(soft) ์์ ์ ํธ๋ฅผ ๊ฒฝ์ฑ(hard) ์์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ๋์ฒดํ๋ค. ์ด๋ ์ ํดํ ์ถ๋ ฅ์ ํน์ ๋ฒ์ฃผ๊ฐ ์ ์ฉ์ฑ ๋ณด์(helpfulness reward)๊ณผ ๋ฌด๊ดํ๊ฒ ๋์ ํ๋ฅ ๋ก ์ฐจ๋จ๋๋ค๋ ๊ณต์์ ๋ณด์ฅ์ด๋ค.
์ด ์ฐจ์ด๋ ๋ฏธ๋ฌํ์ง๋ง ์ค์ํ๋ค. ํ์ค์ ์ธ ์์ RLHF๋ ์์ ์ ์ ์ฉ์ฑ๊ณผ ๊ท ํ์ ๋ง์ถฐ์ผ ํ ์ ํธ๋ก ๋ค๋ฃจ๋ ๋ฐ๋ฉด, HC-RLHF๋ ์์ ์ ์๋ฐ๋ ์ ์๋ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ๋ค๋ฃฌ๋ค. ์ฆ, ํน์ ์ถ๋ ฅ์ด ์๋ฌด๋ฆฌ ์ ์ฉํ๋๋ผ๋ ๋จ์ํ ๊ธ์ง๋๋ค. ์ด๋ก์จ ์ถฉ๋ถํ "์ ์ฉํ" ์๋ต์ด ์์ ๊ณ ๋ ค์ฌํญ์ ๋ฌด๋ ฅํํ ์ ์๋ ์คํจ ์์์ด ์ ๊ฑฐ๋๋ค.
๊ทธ ํธ๋ ์ด๋์คํ๋ HC-RLHF๊ฐ ์์ ์๋ฐ์ ํด๋นํ๋ ๊ฒ์ ๋ช
์์ ๊ท์ ์ ์๊ตฌํ๋ค๋ ์ ์ด๋ค. ์ด ๊ท์ ์์
์ Lindstrรถm ๋ฑ์ด ์ง์ ํ ๋ฌธํ์ ์๋์ฑ ๋ฌธ์ ๋ฅผ ์ฌ๋์
ํ๋ค. ์ด๋ค ์ถ๋ ฅ์ ์ ๋์ ์ผ๋ก ๊ธ์งํ ์ง๋ ๋๊ฐ ๊ฒฐ์ ํ๋๊ฐ? ๊ทธ ๋ต์ ๊ฐ์น ์ค๋ฆฝ์ ์ผ ์ ์๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ
์คํธ๋ฅผ ๋์ด์๋ ๊ณ ์ ํ ์์ ์ํ์ ์ง๋ฉดํ๋ค | ์ด๋ฏธ์ง-ํ
์คํธ ์กฐํฉ ๊ณต๊ฒฉ(compositional attack)์ด ๋ฌธ์ํ๋จ | โ
๊ฐ๋ ฅํ ์ง์ง๋จ |
| ๋ถ๋ฆฌ๋ ์ ์ฉ์ฑ-์์ ์ต์ ํ๊ฐ ๊ฒฐํฉ ํ๋ จ๋ณด๋ค ์ฐ์ํ๋ค | Safe RLHF-V๊ฐ ๊ฐ์ ๋ ํ๋ ํ ํ๋ฐํฐ์ด(Pareto frontier)๋ฅผ ๋ณด์ | โ
์ง์ง๋จ |
| ์ ์ฉ์ฑ-์์ ํธ๋ ์ด๋์คํ๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋ถ๊ฐํผํ๋ค | ๋ค์ํ ํ๊ฒฝ์์ ๊ฒฝํ์ ํ๋ ํ ํ๋ฐํฐ์ด ํ์ธ๋จ | โ
์ง์ง๋จ |
| RLHF๋ ๋ฌธํ์ ์ผ๋ก ๋ณดํธ์ ์ธ ์ ๋ ฌ์ ๋ฌ์ฑํ๋ค | Lindstrรถm ๋ฑ์ด ์ ํธ์ ๋ฌธํ์ ํน์์ฑ์ ์
์ฆํจ | โ ๋ฐ๋ฐ๋จ |
| ๊ฒฝ์ฑ ์์ ์ ์ฝ ์กฐ๊ฑด์ด ์ฐ์ฑ ์ ํธ๋ณด๋ค ๋ฐ๋์งํ๋ค | HC-RLHF๋ ๊ณต์์ ๋ณด์ฅ์ ์ ๊ณตํ๋ ๋ช
์์ ๊ท์ ์ ์๊ตฌํจ | โ ๏ธ ๋งฅ๋ฝ ์์กด์ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
๋ฉํฐ๋ชจ๋ฌ ์ ๋์ ๊ณต๊ฒฉ(adversarial attack): ์ด๋ฏธ์ง-ํ
์คํธ ๊ณต๊ฒฉ ํ๋ฉด์ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์ ์ํ์ด๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด ์ฝํ
์ธ ๋ชจ๋๋ ์ด์
(content moderation), ์๋ฃ, ๊ต์ก ๋ถ์ผ์ ๋ฐฐํฌ๋จ์ ๋ฐ๋ผ ์ด๋ค ์๋ก์ด ๊ณต๊ฒฉ ๋ฒกํฐ(attack vector)๊ฐ ๋ฑ์ฅํ ๊ฒ์ธ๊ฐ?์์ ์ ๋ฌธํ์ ๋ค์์ฃผ์: ์๋ก ๋ค๋ฅธ ๋ฌธํ์ ๋งฅ๋ฝ์์ ๋์์ ์์ ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ ์ ์๋๊ฐ? ์๋๋ฉด ์๋ก ๋ค๋ฅธ ์ง์ญ์ ์ํ ์์ดํ ๋ชจ๋ธ ๋ฒ์ ๊ณผ ํจ๊ป, ๋ฌธํ๋ณ ์ ๋ ฌ(culture-specific alignment)์ ๋ฐ์๋ค์ฌ์ผ ํ๋๊ฐ?
๋์ ์์ ์ฑ: ์์ ๊ธฐ์ค์ ์งํํ๋ค. 2020๋
์ ํ์ฉ ๊ฐ๋ฅํ๋ค๊ณ ์ฌ๊ฒจ์ก๋ ์ฝํ
์ธ ๊ฐ 2025๋
์๋ ์ ํดํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ ์ ์์ผ๋ฉฐ, ๊ทธ ๋ฐ๋์ ๊ฒฝ์ฐ๋ ๋ง์ฐฌ๊ฐ์ง์ด๋ค. ๋ณํํ๋ ์ฌํ์ ๊ท๋ฒ์ ์ ์ํ๋ ์ ๋ ฌ ์์คํ
์ ์ด๋ป๊ฒ ๊ตฌ์ถํ ๊ฒ์ธ๊ฐ?์์ ์ฑ ๊ทน์ฅ ๋ฌธ์ : ๋ชจ๋ธ์ด ๋ฏธ๋ฌํ๊ฒ ์กฐ์ ๊ฐ๋ฅํ ์ํ๋ฅผ ์ ์งํ๋ฉด์ ๊ฒ์ผ๋ก๋ง ์์ ํด ๋ณด์ด๋ ๋ฐ ๋ฅ์ํด์ง๋ค๋ฉด, ์ฐ๋ฆฌ๋ ๊ฑฐ์ง๋ ์๋๊ฐ์ ๊ฐ๊ฒ ๋๋ค. ์ง์ ํ ์์ ์ฑ๊ณผ ์์ ์ฑ ๊ทน์ฅ์ ์ด๋ป๊ฒ ๊ตฌ๋ณํ ๊ฒ์ธ๊ฐ?์ฌ์ฉ์ ๋์์ ์์จ์ฑ: ์ด๋ ์์ ์์ ์์ ์ฑ ์ ๋ ฌ์ด ์จ์ ์ฃผ์๊ฐ ๋๋๊ฐ? ๋์ํ ์ฑ์ธ์ด ํฉ๋ฒ์ ์ด์ง๋ง ์ ์ฌ์ ์ผ๋ก ์ํํ ์ ๋ณด๋ฅผ ์์ฒญํ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ์ด์ ์ํด์ผ ํ๋๊ฐ? ๊ทธ ๋ต์ ํฉ๋ฆฌ์ ์ธ ์ฌ๋๋ค ์ฌ์ด์์๋ ์๊ฒฌ์ด ๊ฐ๋ฆฌ๋ ๊ฐ์น๊ด์ ๋ฌ๋ ค ์๋ค.์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
AI ์์ ์ฑ ์ฐ๊ตฌ์๋ค์๊ฒ ์์ด Safe RLHF-V๋ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ์ ์ํ ๊ฐ์ฅ ์ฑ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ง๋ง, Lindstrรถm ๋ฑ์ ๋นํ์ ๊ทธ ํ๊ณ์ ๋ํ ์ง์ ์์งํจ์ ์๊ตฌํ๋ค. ์ด ๋ถ์ผ์๋ ๋ ๋์ ๊ณตํ์ ์ ๊ทผ(๋ถ๋ฆฌ๋ ์ต์ ํ, ํ์์ ์ ์ฝ)๊ณผ ๋ ๋์ ์ธ์๋ก (์ด๋ค ๊ฐ์น๊ฐ ์ธ์ฝ๋ฉ๋๊ณ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ์ด ๊ธ๋ก๋ฒ ๋ฐฐํฌ์ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋์ง ์ดํดํ๋ ๊ฒ) ๋ชจ๋๊ฐ ํ์ํ๋ค.
๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ฐฐํฌํ๋ ์ค๋ฌด์๋ค์๊ฒ ์ค์ง์ ์ธ ์์ฌ์ ์ ๋์ํ๋ค. ํ
์คํธ ์ ์ฉ ์์ ์ฑ ์ ๋ ฌ์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์๋ ๋ถ์ถฉ๋ถํ๋ค. ๊ณต๊ฒฉ ํ๋ฉด์ ๋ ๋๊ณ , ์คํจ ์์์ ๋ ๋ค์ํ๋ฉฐ, ํ์ฌ์ ํด๊ฒฐ์ฑ
๋ค์ ์ง์ ํ ์ง์ ์ ๋ณด์ฌ์ฃผ๊ณ ์์์๋ ๋ถ๊ตฌํ๊ณ ์ฌ์ ํ ์์ ํ์ง ์๋ค.
2025๋
๋ฉํฐ๋ชจ๋ฌ ์์ ์ฑ ์ฐ๊ตฌ์ ๊ทผ๋ณธ์ ์ธ ๊ตํ์ ์ ๋ ฌ์ด ๊ธฐ์ ์ ํด๊ฒฐ์ฑ
์ด ์๋ ๊ธฐ์ ์ ๋ฌธ์ ๊ฐ ์๋๋ผ๋ ๊ฒ์ด๋ค. ๊ทธ๊ฒ์ ๊ณตํ์ ์ญ๋, ๋ฌธํ์ ๊ฐ์น, ๊ทธ๋ฆฌ๊ณ ๊ธ๋ก๋ฒ ์ฌ์ฉ์ ๊ธฐ๋ฐ์ ๋ค์ํ ์๊ตฌ ์ฌ์ด์์ ์ง์์ ์ธ ํ์์ ํ์๋ก ํ๋ ์ฌํ๊ธฐ์ ์ ๋ฌธ์ ์ด๋ค. ์ด๋ฌํ ๋ณต์ก์ฑ์ ์ธ์ ํ๋ ์ฐ๊ตฌ์๋ค์ด, ์ ๋ ฌ์ ํด๊ฒฐํ๊ณ ์ถ์ํด์ผ ํ ์ต์ ํ ๋ฌธ์ ๋ก ๋ค๋ฃจ๋ ์ฐ๊ตฌ์๋ค๋ณด๋ค ์ง์ ํ ์์ ์ฑ์ ๋ ๋ง์ด ๊ธฐ์ฌํ ๊ฒ์ด๋ค.
References (3)
[1] Ji, J., Chen, X., Pan, R. et al. (2025). Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models. arXiv:2503.17682.
[3] Lindstrรถm, A., Methnani, L., Krause, L. et al. (2025). Helpful, harmless, honest? Sociotechnical limits of AI alignment through RLHF. Ethics and Information Technology.
[4] Chittepu, Y., Metevier, B., Schwarzer, W. et al. (2025). Reinforcement Learning from Human Feedback with High-Confidence Safety Constraints. arXiv:2506.08266.