Paper ReviewAI & Machine LearningMachine/Deep Learning
Your Preferences Are Data: The Privacy Crisis in Reinforcement Learning from Human Feedback
When you tell an AI which response you prefer, you reveal your values, beliefs, and vulnerabilities. RLHF systems aggregate millions of such preference signalsโcreating a privacy risk that the alignment community has barely acknowledged. User-level differential privacy offers a path forward, but at a cost.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Every time a user indicates which AI response they preferโby clicking a thumbs-up, choosing between alternatives, or simply continuing a conversationโthey reveal something about themselves. Not just what they find helpful, but what they value, what they fear, what they believe, and what they're trying to accomplish. Aggregated across millions of interactions, these preference signals constitute a detailed map of human psychologyโand they are the raw material from which RLHF alignment is built.
The alignment community has treated this data as a technical input: preference pairs that train reward models. It has not, with rare exceptions, treated it as what it also is: sensitive personal data that reveals intimate details about the humans who generated it. Zhang et al. are among the first to confront this oversight directly, proposing user-level differential privacy for RLHFโand their findings reveal a tension between alignment quality and privacy protection that the field must resolve.
The Privacy Threat Model
The privacy risks in RLHF are more subtle than typical data privacy concerns. The threat is not that an attacker will steal a database of preference labels. It is that the trained model itself memorizes and reveals information about individual users' preferences.
Consider: a model trained via RLHF on feedback from a user who consistently prefers responses sympathetic to a particular political viewpoint may, through its behavior, reveal that user's political orientation. A model trained on feedback from a user seeking mental health support may encode patterns that reveal that user's psychological state. The model becomes an implicit database of its training feedbackโand anyone with access to the model can potentially extract information about the individuals who shaped it.
This is not a theoretical concern. Membership inference attacks on language modelsโtechniques that determine whether specific data was used in trainingโhave already been demonstrated. Applying these techniques to RLHF preference data could reveal which users provided feedback and what their preferences were.
User-Level Differential Privacy
Zhang et al.'s solution applies differential privacy at the user levelโnot just the example level. The distinction matters enormously. Example-level differential privacy protects individual preference pairs; user-level differential privacy protects the entire contribution of each user.
The mechanism works by adding calibrated noise to the gradient updates during reward model training, ensuring that the trained model's behavior would be essentially unchanged whether or not any single user's entire preference history were included. The privacy guarantee is formal: an adversary with access to the model cannot determine, with meaningful confidence, whether any specific user contributed to training.
The cost is performance. Differential privacy inherently introduces noise that degrades model quality. Zhang et al. quantify this tradeoff, demonstrating that stronger privacy protection (lower ฮต) leads to proportionally greater accuracy degradation in the reward modelโa finding consistent with the well-established privacy-utility tradeoff in differential privacy literature.
This degradation is not uniformly distributed. The model loses fine-grained sensitivity to subtle preference distinctions while maintaining coarse-grained alignment. For most applications, this means the model remains helpful and safe but becomes less capable of capturing nuanced user preferencesโarguably an acceptable tradeoff, but one that alignment researchers have not yet reckoned with.
The Crowd-Sourcing Dimension
Wong & Tan examine RLHF from the crowd-sourcing perspective, focusing on how diverse, large-scale human feedback can be efficiently aggregated for code generation alignment. Their approach integrates feedback from thousands of developers with varying expertise and preferences, raising questions about how individual contributions should be weighted and protected.
Their key finding: not all feedback is equally informative. Expert developers provide preference signals that are more consistent and more predictive of code quality than novice developers. But weighting expert feedback more heavily concentrates influenceโand potentially privacy exposureโin a smaller group, making those individuals more identifiable.
The tension between feedback quality (weight expert opinions more) and privacy (protect all contributors equally) has no clean resolution. It requires explicit policy decisions about whose preferences matter more and what privacy guarantees each contributor deserves.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| RLHF preference data reveals personal information | Membership inference attacks demonstrated on LMs; applies to RLHF | โ
Supported |
| User-level DP can protect RLHF contributors | Zhang et al. demonstrate formal guarantees | โ
Supported |
| Privacy protection degrades alignment quality | Measurable accuracy loss that increases with stronger privacy guarantees | โ
Supported |
| Current RLHF systems provide meaningful privacy protection | No major RLHF deployment implements differential privacy | โ Not provided |
| Expert feedback is more valuable than novice feedback | Wong & Tan show expertise predicts feedback quality | โ
Supported |
Open Questions
Regulatory compliance: Does RLHF feedback constitute "personal data" under GDPR, CCPA, or similar regulations? If so, current RLHF practices may already be non-compliant. The legal analysis has not been performed.Consent and disclosure: Do users who provide preference feedback understand that they are contributing to a training dataset? Is clicking "thumbs up" informed consent for inclusion in alignment training?The right to be forgotten: GDPR grants users the right to have their data deleted. Can a user's preference contribution be removed from a trained reward model? Model unlearning for RLHF is an unsolved technical problem.Federated RLHF: Can we train reward models without centralizing preference data? Federated learning approaches would keep each user's preferences on their device while still contributing to alignmentโbut the communication and coordination costs are substantial.Privacy-alignment Pareto frontier: What is the optimal tradeoff between privacy protection and alignment quality? The answer likely depends on the deployment contextโmedical AI may require stronger privacy than entertainment applications.What This Means for Your Research
For alignment researchers, privacy is no longer a concern you can defer to the deployment team. The choice of privacy mechanism affects the quality of alignment achievableโstronger privacy means coarser alignment. This tradeoff should be acknowledged and studied, not ignored.
For privacy researchers, RLHF represents a novel and consequential application domain. The preference data is high-dimensional, deeply personal, and generated in a context (interaction with an AI system) where users' expectations of privacy may differ from traditional data collection contexts.
For organizations deploying RLHF-trained models, the question is immediate: are you protecting the privacy of the humans whose preferences shaped your model? If not, you may be one regulatory inquiry or data breach away from a crisis that no amount of alignment research can remedy.
The uncomfortable truth: we have built an alignment paradigm that requires intimate knowledge of human preferences but provides no mechanism for protecting the humans who reveal those preferences. The technical solutions exist. The question is whether the industry has the will to implement them before external pressure forces the issue.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
๋น์ ์ ์ ํธ๋ ๋ฐ์ดํฐ์ด๋ค: ์ธ๊ฐ ํผ๋๋ฐฑ ๊ฐํํ์ต์์์ ํ๋ผ์ด๋ฒ์ ์๊ธฐ
์ฌ์ฉ์๊ฐ ์ด๋ค AI ์๋ต์ ์ ํธํ๋์ง ํ์ํ ๋๋ง๋คโ์์ง์๊ฐ๋ฝ ์ฌ๋ฆฌ๊ธฐ๋ฅผ ํด๋ฆญํ๊ฑฐ๋, ๋์๋ค ์ค์์ ์ ํํ๊ฑฐ๋, ํน์ ๋จ์ํ ๋ํ๋ฅผ ์ด์ด๋๊ฐ๋ ๊ฒ๋ง์ผ๋ก๋โ๊ทธ๋ค์ ์์ ์ ๊ดํ ๋ฌด์ธ๊ฐ๋ฅผ ๋๋ฌ๋ธ๋ค. ๋จ์ํ ๋ฌด์์ด ์ ์ฉํ๋ค๊ณ ์๊ฐํ๋์ง๋ฟ๋ง ์๋๋ผ, ๋ฌด์์ ๊ฐ์น ์๊ฒ ์ฌ๊ธฐ๋์ง, ๋ฌด์์ ๋๋ ค์ํ๋์ง, ๋ฌด์์ ๋ฏฟ๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ฌด์์ ์ด๋ฃจ๊ณ ์ ํ๋์ง๊น์ง. ์๋ฐฑ๋ง ๊ฑด์ ์ํธ์์ฉ์ ๊ฑธ์ณ ์ง๊ณ๋ ์ด๋ฌํ ์ ํธ ์ ํธ๋ค์ ์ธ๊ฐ ์ฌ๋ฆฌ์ ๊ดํ ์์ธํ ์ง๋๋ฅผ ๊ตฌ์ฑํ๋ฉฐโ์ด๊ฒ์ด ๋ฐ๋ก RLHF ์ ๋ ฌ์ด ๊ตฌ์ถ๋๋ ์์ฌ๋ฃ์ด๋ค.
์ ๋ ฌ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๋ ์ด ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ ์ ์
๋ ฅ์ผ๋ก ๋ค๋ฃจ์ด ์๋ค: ๋ณด์ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ์ ํธ ์์ผ๋ก์ ๋ง์ด๋ค. ๊ทธ๋ฌ๋ ๊ทน์์์ ์์ธ๋ฅผ ์ ์ธํ๋ฉด, ์ด ๋ฐ์ดํฐ๊ฐ ๋์์ ๋ฌด์์ธ์งโ์ฆ, ๊ทธ๊ฒ์ ์์ฑํ ์ธ๊ฐ์ ๊ดํ ๋ด๋ฐํ ์ธ๋ถ ์ฌํญ์ ๋๋ฌ๋ด๋ ๋ฏผ๊ฐํ ๊ฐ์ธ ์ ๋ณดโ์ ๋ํด์๋ ๋ค๋ฃจ์ด์ง์ง ์์๋ค. Zhang et al.์ ์ด ๊ฐ๊ณผ๋ ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ ์ต์ด์ ์ฐ๊ตฌ์๋ค ์ค ํ๋๋ก, RLHF๋ฅผ ์ํ ์ฌ์ฉ์ ์์ค์ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์(differential privacy)๋ฅผ ์ ์ํ๋ฉฐ, ๊ทธ๋ค์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์ด ๋ถ์ผ๊ฐ ๋ฐ๋์ ํด๊ฒฐํด์ผ ํ ์ ๋ ฌ ํ์ง๊ณผ ํ๋ผ์ด๋ฒ์ ๋ณดํธ ์ฌ์ด์ ๊ธด์ฅ์ ๋๋ฌ๋ธ๋ค.
ํ๋ผ์ด๋ฒ์ ์ํ ๋ชจ๋ธ
RLHF์์์ ํ๋ผ์ด๋ฒ์ ์ํ์ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์ ์ฐ๋ ค๋ณด๋ค ๋ ๋ฏธ๋ฌํ๋ค. ์ํ์ ๊ณต๊ฒฉ์๊ฐ ์ ํธ ๋ ์ด๋ธ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํ์ทจํ๋ ๋ฐ ์์ง ์๋ค. ๋ฌธ์ ๋ ํ๋ จ๋ ๋ชจ๋ธ ์์ฒด๊ฐ ๊ฐ๋ณ ์ฌ์ฉ์์ ์ ํธ์ ๊ดํ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๊ณ ๋๋ฌ๋ธ๋ค๋ ๋ฐ ์๋ค.
์๊ฐํด ๋ณด๋ผ: ํน์ ์ ์น์ ๊ด์ ์ ์ฐํธ์ ์ธ ์๋ต์ ์ผ๊ด๋๊ฒ ์ ํธํ๋ ์ฌ์ฉ์์ ํผ๋๋ฐฑ์ผ๋ก RLHF๋ฅผ ํตํด ํ๋ จ๋ ๋ชจ๋ธ์, ๊ทธ ํ๋์ ํตํด ํด๋น ์ฌ์ฉ์์ ์ ์น์ ์ฑํฅ์ ๋๋ฌ๋ผ ์ ์๋ค. ์ ์ ๊ฑด๊ฐ ์ง์์ ๊ตฌํ๋ ์ฌ์ฉ์์ ํผ๋๋ฐฑ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ๊ทธ ์ฌ์ฉ์์ ์ฌ๋ฆฌ ์ํ๋ฅผ ๋๋ฌ๋ด๋ ํจํด์ ์ธ์ฝ๋ฉํ ์ ์๋ค. ๋ชจ๋ธ์ ํ๋ จ ํผ๋๋ฐฑ์ ์๋ฌต์ ๋ฐ์ดํฐ๋ฒ ์ด์ค๊ฐ ๋๋ฉฐโ๋ชจ๋ธ์ ์ ๊ทผํ ์ ์๋ ๋๊ตฌ๋ผ๋ ๊ทธ๊ฒ์ ํ์ฑํ ๊ฐ์ธ๋ค์ ๊ดํ ์ ๋ณด๋ฅผ ์ ์ฌ์ ์ผ๋ก ์ถ์ถํ ์ ์๋ค.
์ด๋ ์ด๋ก ์ ์ฐ๋ ค์ ๊ทธ์น์ง ์๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ๋ํ ๋ฉค๋ฒ์ญ ์ถ๋ก ๊ณต๊ฒฉ(membership inference attack)โํน์ ๋ฐ์ดํฐ๊ฐ ํ๋ จ์ ์ฌ์ฉ๋์๋์ง ์ฌ๋ถ๋ฅผ ํ๋ณํ๋ ๊ธฐ๋ฒโ์ ์ด๋ฏธ ์์ฐ๋ ๋ฐ ์๋ค. ์ด๋ฌํ ๊ธฐ๋ฒ์ RLHF ์ ํธ ๋ฐ์ดํฐ์ ์ ์ฉํ๋ฉด ์ด๋ค ์ฌ์ฉ์๊ฐ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ค์ ์ ํธ๊ฐ ๋ฌด์์ด์๋์ง๋ฅผ ๋๋ฌ๋ผ ์ ์๋ค.
์ฌ์ฉ์ ์์ค์ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์
Zhang et al.์ ํด๋ฒ์ ์์ ์์ค์ด ์๋ ์ฌ์ฉ์ ์์ค์์ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์๋ฅผ ์ ์ฉํ๋ค. ์ด ๊ตฌ๋ถ์ ๋งค์ฐ ์ค์ํ๋ค. ์์ ์์ค์ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์๋ ๊ฐ๋ณ ์ ํธ ์์ ๋ณดํธํ๋ ๋ฐ๋ฉด, ์ฌ์ฉ์ ์์ค์ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์๋ ๊ฐ ์ฌ์ฉ์์ ์ ์ฒด ๊ธฐ์ฌ๋ฅผ ๋ณดํธํ๋ค.
์ด ๋ฉ์ปค๋์ฆ์ ๋ณด์ ๋ชจ๋ธ ํ๋ จ ์ค ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ์ ๊ต์ ๋ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ฉฐ, ๋จ์ผ ์ฌ์ฉ์์ ์ ์ฒด ์ ํธ ์ด๋ ฅ์ด ํฌํจ๋๋ ์๋๋ ํ๋ จ๋ ๋ชจ๋ธ์ ํ๋์ด ๋ณธ์ง์ ์ผ๋ก ๋ณํ์ง ์๋๋ก ๋ณด์ฅํ๋ค. ํ๋ผ์ด๋ฒ์ ๋ณด์ฅ์ ํ์์ ์ด๋ค: ๋ชจ๋ธ์ ์ ๊ทผํ ์ ์๋ ์ ๋์(adversary)๋ ํน์ ์ฌ์ฉ์๊ฐ ํ๋ จ์ ๊ธฐ์ฌํ๋์ง ์ฌ๋ถ๋ฅผ ์ ์๋ฏธํ ํ์ ์ ๊ฐ์ง๊ณ ํ๋จํ ์ ์๋ค.
๊ทธ ๋๊ฐ๋ ์ฑ๋ฅ์ด๋ค. ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์๋ ํ์ฐ์ ์ผ๋ก ๋ชจ๋ธ ํ์ง์ ์ ํ์ํค๋ ๋
ธ์ด์ฆ๋ฅผ ๋์
ํ๋ค. Zhang et al.์ ์ด ํธ๋ ์ด๋์คํ๋ฅผ ์ ๋ํํ์ฌ, ๋ ๊ฐ๋ ฅํ ํ๋ผ์ด๋ฒ์ ๋ณดํธ(๋ฎ์ ฮต)๊ฐ ๋ณด์ ๋ชจ๋ธ์ ์ ํ๋ ์ ํ๋ก ๋น๋ก์ ์ผ๋ก ์ด์ด์ง์ ์
์ฆํ๋คโ์ด๋ ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์ ๋ฌธํ์์ ์ ํ๋ฆฝ๋ ํ๋ผ์ด๋ฒ์-์ ์ฉ์ฑ ํธ๋ ์ด๋์คํ์ ์ผ์นํ๋ ๊ฒฐ๊ณผ์ด๋ค.
์ด๋ฌํ ์ ํ๋ ๊ท ๋ฑํ๊ฒ ๋ถํฌ๋์ง ์๋๋ค. ๋ชจ๋ธ์ ๋ฏธ๋ฌํ ์ ํธ ๊ตฌ๋ถ์ ๋ํ ์ธ๋ฐํ ๋ฏผ๊ฐ๋๋ฅผ ์๋ ๋ฐ๋ฉด, ๋๋ต์ ์ธ ์ ๋ ฌ์ ์ ์งํ๋ค. ๋๋ถ๋ถ์ ์์ฉ์์ ์ด๋ ๋ชจ๋ธ์ด ์ฌ์ ํ ๋์์ด ๋๊ณ ์์ ํ๊ฒ ์ ์ง๋์ง๋ง, ๋ฏธ๋ฌํ ์ฌ์ฉ์ ์ ํธ๋ฅผ ํฌ์ฐฉํ๋ ๋ฅ๋ ฅ์ ๋จ์ด์ง๋ค๋ ๊ฒ์ ์๋ฏธํ๋คโ์ด๋ ๋
ผ๋์ ์ฌ์ง๊ฐ ์์ง๋ง ์์ฉ ๊ฐ๋ฅํ ํธ๋ ์ด๋์คํ์ด๋, ์ ๋ ฌ ์ฐ๊ตฌ์๋ค์ด ์์ง ์ถฉ๋ถํ ๊ณ ๋ฏผํ์ง ์์ ๋ฌธ์ ์ด๋ค.
ํฌ๋ผ์ฐ๋์์ฑ ์ฐจ์
Wong & Tan์ ํฌ๋ผ์ฐ๋์์ฑ ๊ด์ ์์ RLHF๋ฅผ ๊ฒํ ํ๋ฉฐ, ์ฝ๋ ์์ฑ ์ ๋ ฌ(alignment)์ ์ํด ๋ค์ํ๊ณ ๋๊ท๋ชจ์ ์ธ๊ฐ ํผ๋๋ฐฑ์ ํจ์จ์ ์ผ๋ก ์ง๊ณํ๋ ๋ฐฉ๋ฒ์ ์ด์ ์ ๋ง์ถ๋ค. ๊ทธ๋ค์ ์ ๊ทผ๋ฒ์ ๋ค์ํ ์ ๋ฌธ์ฑ๊ณผ ์ ํธ๋ฅผ ๊ฐ์ง ์์ฒ ๋ช
์ ๊ฐ๋ฐ์๋ก๋ถํฐ ํผ๋๋ฐฑ์ ํตํฉํ๋ฉฐ, ๊ฐ๋ณ ๊ธฐ์ฌ์ ๋ํ ๊ฐ์ค์น ๋ถ์ฌ ๋ฐ ๋ณดํธ ๋ฐฉ์์ ๊ดํ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ค.
๊ทธ๋ค์ ํต์ฌ ๋ฐ๊ฒฌ: ๋ชจ๋ ํผ๋๋ฐฑ์ด ๋๋ฑํ๊ฒ ์ ์ตํ ๊ฒ์ ์๋๋ค. ์ ๋ฌธ ๊ฐ๋ฐ์๋ ์ด๋ณด ๊ฐ๋ฐ์๋ณด๋ค ๋ ์ผ๊ด๋๊ณ ์ฝ๋ ํ์ง์ ๋ ์ ์์ธกํ๋ ์ ํธ ์ ํธ(preference signal)๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ฌ๋ ์ ๋ฌธ๊ฐ ํผ๋๋ฐฑ์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ฉด ์ํฅ๋ ฅโ๊ทธ๋ฆฌ๊ณ ์ ์ฌ์ ์ธ ํ๋ผ์ด๋ฒ์ ๋
ธ์ถโ์ด ๋ ์์์ ์ง๋จ์ ์ง์ค๋์ด, ํด๋น ๊ฐ์ธ๋ค์ด ๋ ์ฝ๊ฒ ์๋ณ ๊ฐ๋ฅํด์ง๋ค.
ํผ๋๋ฐฑ ํ์ง(์ ๋ฌธ๊ฐ ์๊ฒฌ์ ๋ ๋์ ๊ฐ์ค์น ๋ถ์ฌ)๊ณผ ํ๋ผ์ด๋ฒ์(๋ชจ๋ ๊ธฐ์ฌ์๋ฅผ ๋๋ฑํ๊ฒ ๋ณดํธ) ์ฌ์ด์ ๊ธด์ฅ์ ๋ช
์พํ ํด๊ฒฐ์ฑ
์ด ์๋ค. ์ด๋ ๋๊ตฌ์ ์ ํธ๊ฐ ๋ ์ค์ํ์ง, ๊ทธ๋ฆฌ๊ณ ๊ฐ ๊ธฐ์ฌ์๊ฐ ์ด๋ค ํ๋ผ์ด๋ฒ์ ๋ณด์ฅ์ ๋ฐ์ ์๊ฒฉ์ด ์๋์ง์ ๋ํ ๋ช
์์ ์ธ ์ ์ฑ
๊ฒฐ์ ์ ์๊ตฌํ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| RLHF ์ ํธ ๋ฐ์ดํฐ๋ ๊ฐ์ธ ์ ๋ณด๋ฅผ ๋๋ฌ๋ธ๋ค | ์ธ์ด ๋ชจ๋ธ์ ๋ํ ๋ฉค๋ฒ์ญ ์ถ๋ก ๊ณต๊ฒฉ(membership inference attack) ์์ฐ; RLHF์๋ ์ ์ฉ ๊ฐ๋ฅ | โ
์ง์ง๋จ |
| ์ฌ์ฉ์ ์์ค DP๋ RLHF ๊ธฐ์ฌ์๋ฅผ ๋ณดํธํ ์ ์๋ค | Zhang et al.์ด ํ์์ ๋ณด์ฅ์ ์์ฐ | โ
์ง์ง๋จ |
| ํ๋ผ์ด๋ฒ์ ๋ณดํธ๋ ์ ๋ ฌ ํ์ง์ ์ ํ์ํจ๋ค | ๋ ๊ฐ๋ ฅํ ํ๋ผ์ด๋ฒ์ ๋ณด์ฅ์ผ์๋ก ์ฆ๊ฐํ๋ ์ธก์ ๊ฐ๋ฅํ ์ ํ๋ ์์ค | โ
์ง์ง๋จ |
| ํ์ฌ RLHF ์์คํ
์ ์๋ฏธ ์๋ ํ๋ผ์ด๋ฒ์ ๋ณดํธ๋ฅผ ์ ๊ณตํ๋ค | ์ฃผ์ RLHF ๋ฐฐํฌ ์์คํ
์ค ์ฐจ๋ฑ ํ๋ผ์ด๋ฒ์(differential privacy)๋ฅผ ๊ตฌํํ ์ฌ๋ก ์์ | โ ์ ์๋์ง ์์ |
| ์ ๋ฌธ๊ฐ ํผ๋๋ฐฑ์ ์ด๋ณด์ ํผ๋๋ฐฑ๋ณด๋ค ๋ ๊ฐ์น ์๋ค | Wong & Tan์ด ์ ๋ฌธ์ฑ์ด ํผ๋๋ฐฑ ํ์ง์ ์์ธกํจ์ ์์ฐ | โ
์ง์ง๋จ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ๋ค
๊ท์ ์ค์: RLHF ํผ๋๋ฐฑ์ GDPR, CCPA ๋๋ ์ ์ฌ ๊ท์ ์ "๊ฐ์ธ ๋ฐ์ดํฐ"์ ํด๋นํ๋๊ฐ? ๋ง์ฝ ๊ทธ๋ ๋ค๋ฉด, ํ์ฌ RLHF ๊ดํ์ ์ด๋ฏธ ๋น์ค์ ์ํ์ผ ์ ์๋ค. ๋ฒ์ ๋ถ์์ ์์ง ์ํ๋์ง ์์๋ค.๋์์ ๊ณต๊ฐ: ์ ํธ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ์ฌ์ฉ์๋ ์์ ์ด ํ๋ จ ๋ฐ์ดํฐ์
์ ๊ธฐ์ฌํ๊ณ ์์์ ์ดํดํ๋๊ฐ? "์ข์์" ๋ฒํผ์ ํด๋ฆญํ๋ ๊ฒ์ด ์ ๋ ฌ ํ๋ จ์ ํฌํจ๋๋ ๊ฒ์ ๋ํ ์ฌ์ ๋์(informed consent)์ธ๊ฐ?์ํ์ง ๊ถ๋ฆฌ: GDPR์ ์ฌ์ฉ์์๊ฒ ์์ ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํ ๊ถ๋ฆฌ๋ฅผ ๋ถ์ฌํ๋ค. ์ฌ์ฉ์์ ์ ํธ ๊ธฐ์ฌ๋ถ์ ํ์ต๋ ๋ณด์ ๋ชจ๋ธ(reward model)์์ ์ ๊ฑฐํ ์ ์๋๊ฐ? RLHF๋ฅผ ์ํ ๋ชจ๋ธ ์ธ๋ฌ๋(model unlearning)์ ์์ง ํด๊ฒฐ๋์ง ์์ ๊ธฐ์ ์ ๋ฌธ์ ์ด๋ค.์ฐํฉ RLHF(Federated RLHF): ์ ํธ ๋ฐ์ดํฐ๋ฅผ ์ค์ํํ์ง ์๊ณ ๋ณด์ ๋ชจ๋ธ์ ํ๋ จํ ์ ์๋๊ฐ? ์ฐํฉ ํ์ต(federated learning) ์ ๊ทผ๋ฒ์ ๊ฐ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๊ธฐ๊ธฐ์ ์ ์งํ๋ฉด์๋ ์ ๋ ฌ์ ๊ธฐ์ฌํ ์ ์๊ฒ ํ์ง๋งโํต์ ๋ฐ ์กฐ์ ๋น์ฉ์ด ์๋นํ๋ค.ํ๋ผ์ด๋ฒ์-์ ๋ ฌ ํ๋ ํ ํ๋ฐํฐ์ด(Privacy-alignment Pareto frontier): ํ๋ผ์ด๋ฒ์ ๋ณดํธ์ ์ ๋ ฌ ํ์ง ์ฌ์ด์ ์ต์ ํธ๋ ์ด๋์คํ๋ ๋ฌด์์ธ๊ฐ? ๊ทธ ๋ต์ ๋ฐฐํฌ ๋งฅ๋ฝ์ ๋ฐ๋ผ ๋ค๋ฅผ ๊ฐ๋ฅ์ฑ์ด ๋๋คโ์๋ฃ AI๋ ์ํฐํ
์ธ๋จผํธ ์ ํ๋ฆฌ์ผ์ด์
๋ณด๋ค ๋ ๊ฐ๋ ฅํ ํ๋ผ์ด๋ฒ์๋ฅผ ์๊ตฌํ ์ ์๋ค.์ฐ๊ตฌ์ ๋ํ ์์ฌ์
์ ๋ ฌ ์ฐ๊ตฌ์์๊ฒ ์์ด, ํ๋ผ์ด๋ฒ์๋ ๋ ์ด์ ๋ฐฐํฌ ํ์ ๋ฏธ๋ฃฐ ์ ์๋ ๋ฌธ์ ๊ฐ ์๋๋ค. ํ๋ผ์ด๋ฒ์ ๋ฉ์ปค๋์ฆ์ ์ ํ์ ๋ฌ์ฑ ๊ฐ๋ฅํ ์ ๋ ฌ์ ํ์ง์ ์ํฅ์ ๋ฏธ์น๋คโํ๋ผ์ด๋ฒ์๊ฐ ๊ฐํ ์๋ก ์ ๋ ฌ์ ๋ ๊ฑฐ์น ์ด์ง๋ค. ์ด ํธ๋ ์ด๋์คํ๋ ๋ฌด์๋์ด์๋ ์ ๋๋ฉฐ, ๋ช
์์ ์ผ๋ก ์ธ์ ํ๊ณ ์ฐ๊ตฌํด์ผ ํ๋ค.
ํ๋ผ์ด๋ฒ์ ์ฐ๊ตฌ์์๊ฒ ์์ด, RLHF๋ ์๋กญ๊ณ ์ค์ํ ์์ฉ ๋ถ์ผ์ด๋ค. ์ ํธ ๋ฐ์ดํฐ๋ ๊ณ ์ฐจ์์ ์ด๊ณ ๋งค์ฐ ๊ฐ์ธ์ ์ด๋ฉฐ, ์ฌ์ฉ์์ ํ๋ผ์ด๋ฒ์์ ๋ํ ๊ธฐ๋๊ฐ ์ ํต์ ์ธ ๋ฐ์ดํฐ ์์ง ๋งฅ๋ฝ๊ณผ ๋ค๋ฅผ ์ ์๋ ํ๊ฒฝ(AI ์์คํ
๊ณผ์ ์ํธ์์ฉ)์์ ์์ฑ๋๋ค.
RLHF ํ์ต ๋ชจ๋ธ์ ๋ฐฐํฌํ๋ ์กฐ์ง์๊ฒ ์์ด, ๋ฌธ์ ๋ ์ฆ๊ฐ์ ์ด๋ค: ์ฌ๋ฌ๋ถ์ ์์ ์ ๋ชจ๋ธ์ ํ์ฑํ ์ธ๊ฐ๋ค์ ์ ํธ์ ๋ํ ํ๋ผ์ด๋ฒ์๋ฅผ ๋ณดํธํ๊ณ ์๋๊ฐ? ๊ทธ๋ ์ง ์๋ค๋ฉด, ์ด๋ ํ ์ ๋ ฌ ์ฐ๊ตฌ๋ ํด๊ฒฐํ ์ ์๋ ์๊ธฐ๋ฅผ ๋ถ๋ฌ์ฌ ๊ท์ ์กฐ์ฌ๋ ๋ฐ์ดํฐ ์ ์ถ๋ก๋ถํฐ ํ ๋ฐ์ง๋ ๋จ์ด์ ธ ์์ง ์์ ์ ์๋ค.
๋ถํธํ ์ง์ค์ ์ด๊ฒ์ด๋ค: ์ฐ๋ฆฌ๋ ์ธ๊ฐ์ ์ ํธ๋ฅผ ๊น์ด ์ดํดํด์ผ ํ๋ ์ ๋ ฌ(alignment) ํจ๋ฌ๋ค์์ ๊ตฌ์ถํ์ง๋ง, ๊ทธ ์ ํธ๋ฅผ ๋๋ฌ๋ด๋ ์ธ๊ฐ์ ๋ณดํธํ๋ ๋ฉ์ปค๋์ฆ์ ์ ํ ๋ง๋ จํ์ง ์์๋ค. ๊ธฐ์ ์ ํด๊ฒฐ์ฑ
์ ์กด์ฌํ๋ค. ๋ฌธ์ ๋ ์ธ๋ถ ์๋ ฅ์ด ์ด ์ฌ์์ ๊ฐ์ ํ๊ธฐ ์ ์ ์
๊ณ๊ฐ ์ด๋ฅผ ์คํํ ์์ง๊ฐ ์๋๋์ด๋ค.
References (3)
[1] Zhang, J., Lei, M., Ding, M. et al. (2025). Towards User-level Private Reinforcement Learning with Human Feedback. arXiv:2502.17515.
[2] Kleine Buening, T., Gan, J., Mandal, D. et al. (2025). Strategyproof Reinforcement Learning from Human Feedback. arXiv:2503.09561.
[3] Wong, M. & Tan, C. (2025). Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by LLMs. IEEE TBDATA.