Law & Policy
AI Training Data and Copyright: The Input Side of the Generative AI Legal Crisis
Generative AI models are trained on vast quantities of copyrighted material collected through web scraping. Whether this constitutes infringement depends on which jurisdiction you askโand on legal doctrines (fair use, TDM exceptions) that were designed for a pre-generative world. Five papers map the legal landscape and its fractures.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Every large language model, every image generator, every music composition AI was trained on data that someone created. Much of that data is copyrighted. The legal questionโwhether using copyrighted works as AI training data constitutes infringementโremains genuinely unsettled across every major jurisdiction. This is not a gap waiting to be filled by an obvious answer; it is a genuine conflict between two legitimate legal principles: the right of creators to control how their works are used, and the interest of society in fostering technological innovation.
The cases currently winding through courtsโNew York Times v. OpenAI, Getty Images v. Stability AI, Authors Guild v. Metaโwill produce precedents. But the scholarly literature suggests that no single case will resolve the underlying tension, because the legal frameworks being applied (fair use, text and data mining exceptions, the three-step test) were designed for a different technological reality.
The Jurisdictional Fracture
Dornis and Stober (2025) provide an interdisciplinary analysis that combines legal scholarship with technical understanding of how generative AI models actually use training data. Their paper examines the two dominant legal frameworks: the US "fair use" doctrine and the EU "text and data mining" (TDM) exceptionโand argues that neither applies as straightforwardly as commonly assumed.
In the United States, AI developers rely on "fair use," which considers four factors: purpose and character of use, nature of the copyrighted work, amount used, and market effect. AI training arguably transforms the work (favoring fair use) but may substantially replicate it in outputs (disfavoring fair use). Fair use analysis is inherently unpredictableโeach case requires fact-specific analysis, and reasonable courts can reach opposite conclusions on the same facts.
In the European Union, the prevailing view is that the DSM Directive's TDM exception (Articles 3 and 4) applies to AI training. However, Dornis and Stober challenge this prevailing view, arguing that generative AI training fundamentally differs from TDM as traditionally understood. Their analysis suggests that the TDM exception may not cover the kind of large-scale pattern extraction that generative models perform. They also discuss how training data memorizationโwhere models reproduce substantial portions of training data in outputsโcreates copyright issues independently from both the fair use and TDM exceptions.
The Three-Step Test Under Pressure
Thongmeensuk (2024) provides what has become an influential analysis of how existing copyright exceptions interact with generative AI's data requirements. The paper examines how TDM practices challenge the Berne Convention's three-step testโthe international standard that limits copyright exceptions to:
Certain special cases (the exception must be narrowly defined)
Not conflicting with normal exploitation (the exception must not substitute for the market for the work)
Not unreasonably prejudicing the legitimate interests of the rightsholderThe paper argues that generative AI creates multifaceted legal challenges at the intersection of data utilization and copyright law. The inherent reliance of AI on large quantities of data, often encompassing copyrighted materials, tests each prong of the three-step test in novel ways. When an AI system trained on millions of copyrighted images can generate new images that compete with the originals in the same markets, the second prongโnon-conflict with normal exploitationโbecomes particularly strained.
Beyond Fair Use and Opt-Out
Woo (2025) advances what is perhaps the most theoretically ambitious argument in this cohort: that generative AI represents the "de facto end of the Berne Convention era." The paper argues that existing copyright doctrinesโfair use, TDM exceptions, the three-step testโare not merely inadequate patches on a basically sound framework but symptoms of a fundamental mismatch between the assumptions of international copyright law and the reality of generative AI.
The Berne Convention assumes that copying is detectable, attributable, and discreteโthat you can identify when a work has been copied, who copied it, and what was copied. Generative AI violates all three assumptions. Training is a statistical process that extracts patterns from millions of works simultaneously, making attribution to any single source technically challenging. The "copies" that exist in model weights are not copies in any traditional senseโthey are compressed statistical representations that may or may not be recoverable as recognizable reproductions.
Woo argues that measures currently under discussionโTDM exceptions, fair use, opt-out mechanismsโare palliative at best. What is needed is a fundamental shift in the public paradigm of copyright: from exclusive rights over copies to equitable participation in the value generated from data.
The Technical-Legal Interface
Pasetti et al. (2025) address the technical, legal, and ethical dimensions of AI training data governance simultaneously. Their contribution lies in bridging the gap between what computer scientists understand about model training and what legal scholars assume about it.
The technical reality is important for legal analysis: AI training does not "store" copyrighted works in the traditional sense. The training process compresses billions of data points into model parameters through gradient descent, creating a statistical representation that is neither a copy (in the legal sense) nor independent of the originals (in the practical sense). This intermediate statusโnot-a-copy-but-not-independentโis precisely what existing copyright frameworks are not equipped to handle.
Cross-Jurisdictional Divergence
Riaz (2026) provides a systematic comparative analysis across the UK, EU, and US, using doctrinal methodology to analyze statutes, case law, and regulatory proposals. The analysis reveals that jurisdictional divergence is increasing rather than converging:
- The UK initially proposed a broad TDM exception for commercial use but withdrew it after creator backlash, leaving the legal position uncertain.
- The EU has its opt-out framework but faces enforcement challengesโhow do rightsholders monitor whether their opt-out declarations are being respected?
- The US relies on case-by-case fair use adjudication, with pending cases that could establish divergent precedents depending on whether courts emphasize transformation (favoring AI developers) or market substitution (favoring creators).
The practical consequence of divergence is regulatory arbitrage: AI companies can train models in jurisdictions with permissive frameworks and deploy them globally. This possibility limits the effectiveness of any single jurisdiction's regulatory choices and creates pressure for international harmonizationโwhich the Berne Convention's existing machinery is not designed to provide.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| AI training constitutes fair use under US law | Dornis & Stober (2025): fact-specific, inherently unpredictable; reasonable disagreement possible | โ ๏ธ Uncertain (pending litigation) |
| The EU TDM opt-out mechanism adequately protects creators | Thongmeensuk (2024), Riaz (2026): enforcement challenges and power asymmetries identified | โ ๏ธ Uncertain |
| Existing copyright frameworks can accommodate generative AI | Woo (2025): fundamental mismatch with Berne Convention assumptions | โ Refuted (as currently configured) |
| Technical understanding of AI training changes the legal analysis | Pasetti et al. (2025): model weights are neither copies nor independent creations | โ
Supported |
| Jurisdictional harmonization on AI training data is emerging | Riaz (2026): divergence is increasing across UK, EU, and US | โ Refuted |
Open Questions
Will the pending US cases establish a clear precedent, or will they fragment the analysis further? NYT v. OpenAI focuses on memorization and market substitution; Authors Guild v. Meta focuses on transformative use. Different facts may produce different doctrinal outcomes.Can technical measures substitute for legal solutions? Content provenance standards (C2PA), training data provenance tracking, and output watermarking offer technical infrastructure for accountability. But their effectiveness depends on universal adoption, which is voluntary.Should AI training compensation be collective or individual? Collective licensing (analogous to music performing rights organizations) could provide scalable compensation. But who would represent the interests of the millions of creators whose works are used as training data?What happens to works that are not opted out? Under the EU framework, works without an explicit opt-out declaration are available for TDM. Does this create a default that disadvantages individual creators who lack the technical knowledge or resources to opt out?Is the distinction between input (training) and output (generation) legally coherent? Current analyses treat training and generation as separate legal events. But from a technical perspective, the output is a function of the inputโseparating them may be analytically convenient but practically misleading.Implications
The legal status of AI training data will determine how the economic value generated by generative AI is distributed between AI companies and content creators. If training is broadly permissible (under fair use or TDM exceptions), the value flows to AI developers and their users. If training requires licensing, the value is sharedโbut the transaction costs of licensing millions of works may be prohibitive without collective mechanisms.
The research reviewed here suggests that the current legal frameworksโdesigned for a world of identifiable copies, discrete uses, and national jurisdictionsโare not adequate for a technology that compresses millions of works into statistical representations, deploys them globally, and generates outputs that blur the line between derivation and creation. What is needed is not marginal reform but conceptual innovation: new legal categories that account for the technical reality of AI training and the economic reality of generative AI markets.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์์
์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
AI ํ์ต ๋ฐ์ดํฐ์ ์ ์๊ถ: ์์ฑํ AI ๋ฒ์ ์๊ธฐ์ ์
๋ ฅ ์ธก๋ฉด
๋ชจ๋ ๋ํ ์ธ์ด ๋ชจ๋ธ, ๋ชจ๋ ์ด๋ฏธ์ง ์์ฑ๊ธฐ, ๋ชจ๋ ์์
์๊ณก AI๋ ๋๊ตฐ๊ฐ๊ฐ ์ฐฝ์ํ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋์๋ค. ๊ทธ ๋ฐ์ดํฐ ์ค ์๋น ๋ถ๋ถ์ ์ ์๊ถ์ผ๋ก ๋ณดํธ๋๋ค. ์ ์๊ถ์ด ์๋ ์ ์๋ฌผ์ AI ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์นจํด์ ํด๋นํ๋์ง์ ๊ดํ ๋ฒ์ ๋ฌธ์ ๋ ๋ชจ๋ ์ฃผ์ ๊ดํ ๊ถ์์ ์์ง ์ง์ ์ผ๋ก ํด๊ฒฐ๋์ง ์์ ์ํ์ด๋ค. ์ด๋ ๋ช
๋ฐฑํ ๋ต์ด ์ฑ์์ง๊ธฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ๊ณต๋ฐฑ์ด ์๋๋ผ, ๋ ๊ฐ์ง ์ ๋นํ ๋ฒ ์๋ฆฌ ์ฌ์ด์ ์ง์ ํ ์ถฉ๋์ด๋ค. ์ฆ, ์ฐฝ์์๊ฐ ์์ ์ ์ ์๋ฌผ์ด ์ฌ์ฉ๋๋ ๋ฐฉ์์ ํต์ ํ ๊ถ๋ฆฌ์, ๊ธฐ์ ํ์ ์ ์ด์งํ๋ ค๋ ์ฌํ์ ์ด์ต ์ฌ์ด์ ์ถฉ๋์ด๋ค.
ํ์ฌ ๋ฒ์์์ ์งํ ์ค์ธ ์ฌ๊ฑด๋คโNew York Times v. OpenAI, Getty Images v. Stability AI, Authors Guild v. Metaโ์ ํ๋ก๋ฅผ ๋ง๋ค์ด๋ผ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ํ์ ๋ฌธํ์ ์ด๋ค ๋จ์ผ ์ฌ๊ฑด๋ ๊ทผ๋ณธ์ ์ธ ๊ธด์ฅ์ ํด์ํ์ง ๋ชปํ ๊ฒ์์ ์์ฌํ๋ค. ์ ์ฉ๋๋ ๋ฒ์ ํ(๊ณต์ ์ด์ฉ, ํ
์คํธ ๋ฐ ๋ฐ์ดํฐ ๋ง์ด๋ ์์ธ, 3๋จ๊ณ ํ
์คํธ)์ด ๋ค๋ฅธ ๊ธฐ์ ์ ํ์ค์ ์ํด ์ค๊ณ๋์๊ธฐ ๋๋ฌธ์ด๋ค.
๊ดํ ๊ถ์ ๋ถ์ด
Dornis์ Stober(2025)๋ ์์ฑํ AI ๋ชจ๋ธ์ด ์ค์ ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ ๋ํ ๊ธฐ์ ์ ์ดํด์ ๋ฒํ์ ์ฐ๊ตฌ๋ฅผ ๊ฒฐํฉํ ํ์ ์ ๋ถ์์ ์ ๊ณตํ๋ค. ์ด ๋
ผ๋ฌธ์ ๋ ๊ฐ์ง ์ง๋ฐฐ์ ์ธ ๋ฒ์ ํ, ์ฆ ๋ฏธ๊ตญ์ "๊ณต์ ์ด์ฉ(fair use)" ์์น๊ณผ EU์ "ํ
์คํธ ๋ฐ ๋ฐ์ดํฐ ๋ง์ด๋(TDM)" ์์ธ๋ฅผ ๊ฒํ ํ๋ฉฐ, ๋ ๋ค ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ ํ๋ ๊ฒ๋งํผ ๊ฐ๋จํ๊ฒ ์ ์ฉ๋์ง ์๋๋ค๊ณ ์ฃผ์ฅํ๋ค.
๋ฏธ๊ตญ์์ AI ๊ฐ๋ฐ์๋ค์ ์ฌ์ฉ ๋ชฉ์ ๊ณผ ์ฑ๊ฒฉ, ์ ์๋ฌผ์ ์ฑ๊ฒฉ, ์ฌ์ฉ๋ ๋ถ๋, ์์ฅ ์ํฅ ๋ฑ ๋ค ๊ฐ์ง ์์๋ฅผ ๊ณ ๋ คํ๋ "๊ณต์ ์ด์ฉ"์ ์์กดํ๋ค. AI ํ์ต์ ์ ์๋ฌผ์ ๋ณํํ๋ค๋ ์ ์์๋ ๊ณต์ ์ด์ฉ์ ์ ๋ฆฌํ์ง๋ง, ์ถ๋ ฅ๋ฌผ์์ ์ ์๋ฌผ์ ์๋น ๋ถ๋ถ ๋ณต์ ํ ์ ์๋ค๋ ์ ์์๋ ๋ถ๋ฆฌํ๋ค. ๊ณต์ ์ด์ฉ ๋ถ์์ ๋ณธ์ง์ ์ผ๋ก ์์ธกํ๊ธฐ ์ด๋ ต๋ค. ๊ฐ ์ฌ๊ฑด์ ์ฌ์ค์ ํน์ ํ ๋ถ์์ ํ์๋ก ํ๋ฉฐ, ํฉ๋ฆฌ์ ์ธ ๋ฒ์๋ ๋์ผํ ์ฌ์ค์ ๋ํด ๋ฐ๋ ๊ฒฐ๋ก ์ ๋๋ฌํ ์ ์๋ค.
์ ๋ฝ์ฐํฉ์์๋ DSM ์ง์นจ์ TDM ์์ธ(์ 3์กฐ ๋ฐ ์ 4์กฐ)๊ฐ AI ํ์ต์ ์ ์ฉ๋๋ค๋ ๊ฒฌํด๊ฐ ์ง๋ฐฐ์ ์ด๋ค. ๊ทธ๋ฌ๋ Dornis์ Stober๋ ์ด ์ง๋ฐฐ์ ์ธ ๊ฒฌํด์ ์ด์๋ฅผ ์ ๊ธฐํ๋ฉฐ, ์์ฑํ AI ํ์ต์ด ์ ํต์ ์ผ๋ก ์ดํด๋์ด์จ TDM๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ค๊ณ ์ฃผ์ฅํ๋ค. ๊ทธ๋ค์ ๋ถ์์ TDM ์์ธ๊ฐ ์์ฑํ ๋ชจ๋ธ์ด ์ํํ๋ ๋๊ท๋ชจ ํจํด ์ถ์ถ ๋ฐฉ์์ ํฌ๊ดํ์ง ๋ชปํ ์ ์์์ ์์ฌํ๋ค. ๋ํ ๋ชจ๋ธ์ด ์ถ๋ ฅ๋ฌผ์์ ํ์ต ๋ฐ์ดํฐ์ ์๋น ๋ถ๋ถ์ ์ฌํํ๋ ํ์ต ๋ฐ์ดํฐ ๊ธฐ์ตํ(memorization)๊ฐ ๊ณต์ ์ด์ฉ ๋ฐ TDM ์์ธ์ ๋
๋ฆฝ์ ์ผ๋ก ์ ์๊ถ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค๋ ์ ๋ ๋
ผ์ํ๋ค.
์๋ฐ๋ฐ๋ 3๋จ๊ณ ํ
์คํธ
Thongmeensuk(2024)์ ๊ธฐ์กด ์ ์๊ถ ์์ธ๊ฐ ์์ฑํ AI์ ๋ฐ์ดํฐ ์๊ตฌ ์ฌํญ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋์ง์ ๋ํ ์ํฅ๋ ฅ ์๋ ๋ถ์์ ์ ๊ณตํ๋ค. ์ด ๋
ผ๋ฌธ์ TDM ๊ดํ์ด ๋ฒ ๋ฅธ ํ์ฝ์ 3๋จ๊ณ ํ
์คํธโ์ ์๊ถ ์์ธ๋ฅผ ๋ค์์ผ๋ก ์ ํํ๋ ๊ตญ์ ๊ธฐ์คโ์ ์ด๋ป๊ฒ ๋์ ํ๋์ง๋ฅผ ๊ฒํ ํ๋ค:
ํน์ ํน์ํ ๊ฒฝ์ฐ (์์ธ๋ ์ข๊ฒ ์ ์๋์ด์ผ ํ๋ค)
ํต์์ ์ธ ์ด์ฉ๊ณผ์ ์ถฉ๋ ๊ธ์ง (์์ธ๋ ์ ์๋ฌผ ์์ฅ์ ๋์ฒดํด์๋ ์ ๋๋ค)
๊ถ๋ฆฌ ๋ณด์ ์์ ์ ๋นํ ์ด์ต์ ๋ถํฉ๋ฆฌํ๊ฒ ํด์น์ง ์์ ๊ฒ์ด ๋
ผ๋ฌธ์ ์์ฑํ AI๊ฐ ๋ฐ์ดํฐ ํ์ฉ๊ณผ ์ ์๊ถ๋ฒ์ ๊ต์ฐจ์ ์์ ๋ค๋ฉด์ ์ธ ๋ฒ์ ๊ณผ์ ๋ฅผ ๋ง๋ค์ด๋ธ๋ค๊ณ ์ฃผ์ฅํ๋ค. ํํ ์ ์๊ถ ์๋ ์๋ฃ๋ฅผ ํฌํจํ๋ ๋๋์ ๋ฐ์ดํฐ์ ๋ํ AI์ ๋ณธ์ง์ ์ธ ์์กด์ 3๋จ๊ณ ํ
์คํธ์ ๊ฐ ์๊ฑด์ ์๋ก์ด ๋ฐฉ์์ผ๋ก ์ํํ๋ค. ์๋ฐฑ๋ง ๊ฐ์ ์ ์๊ถ ์๋ ์ด๋ฏธ์ง๋ก ํ์ต๋ AI ์์คํ
์ด ๋์ผํ ์์ฅ์์ ์๋ณธ๊ณผ ๊ฒฝ์ํ๋ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์ ๋, ๋ ๋ฒ์งธ ์๊ฑดโํต์์ ์ธ ์ด์ฉ๊ณผ์ ๋น์ถฉ๋โ์ ํนํ ํฐ ์๋ฐ์ ๋ฐ๊ฒ ๋๋ค.
๊ณต์ ์ด์ฉ๊ณผ ์ตํธ์์์ ๋์ด์
Woo(2025)๋ ์ด ์ฐ๊ตฌ๊ตฐ์์ ์๋ง๋ ๊ฐ์ฅ ์ด๋ก ์ ์ผ๋ก ์ผ์ฌ์ฐฌ ์ฃผ์ฅ์ ์ ์ํ๋ค: ์์ฑํ AI๊ฐ "์ฌ์ค์ ๋ฒ ๋ฅธ ํ์ฝ ์๋์ ์ข
๋ง"์ ์๋ฏธํ๋ค๋ ๊ฒ์ด๋ค. ์ด ๋
ผ๋ฌธ์ ๊ณต์ ์ด์ฉ, TDM ์์ธ, 3๋จ๊ณ ํ
์คํธ ๋ฑ ๊ธฐ์กด ์ ์๊ถ ๋ฒ๋ฆฌ๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ฑด์ ํ ํ์ ๋ถ์ด๋ ๋ถ์ถฉ๋ถํ ์์๋ฐฉํธ์ ๊ทธ์น๋ ๊ฒ์ด ์๋๋ผ, ๊ตญ์ ์ ์๊ถ๋ฒ์ ์ ์ ์ ์์ฑํ AI์ ํ์ค ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ ๋ถ์ผ์น๋ฅผ ๋ณด์ฌ์ฃผ๋ ์งํ๋ผ๊ณ ์ฃผ์ฅํ๋ค.
๋ฒ ๋ฅธ ํ์ฝ์ ๋ณต์ ๊ฐ ํ์ง ๊ฐ๋ฅํ๊ณ , ๊ท์ ๊ฐ๋ฅํ๋ฉฐ, ๊ฐ๋ณ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๋คโ์ฆ, ์ ์๋ฌผ์ด ๋ณต์ ๋ ์์ , ๋ณต์ ํ ์ฃผ์ฒด, ๋ณต์ ๋ ๋ด์ฉ์ ์๋ณํ ์ ์๋ค๊ณ ์ ์ ํ๋ค. ์์ฑํ AI๋ ์ด ์ธ ๊ฐ์ง ๊ฐ์ ์ ๋ชจ๋ ์๋ฐํ๋ค. ํ๋ จ์ ์๋ฐฑ๋ง ๊ฐ์ ์ ์๋ฌผ์์ ๋์์ ํจํด์ ์ถ์ถํ๋ ํต๊ณ์ ๊ณผ์ ์ผ๋ก, ์ด๋ค ๋จ์ผ ์ถ์ฒ์ ๋ํ ๊ท์์ ๊ธฐ์ ์ ์ผ๋ก ์ด๋ ต๊ฒ ๋ง๋ ๋ค. ๋ชจ๋ธ ๊ฐ์ค์น์ ์กด์ฌํ๋ "๋ณต์ ๋ฌผ"์ ์ ํต์ ์ธ ์๋ฏธ์ ๋ณต์ ๋ฌผ์ด ์๋๋คโ๊ทธ๊ฒ์ ์์๋ณผ ์ ์๋ ์ฌํ๋ฌผ๋ก ๋ณต์ ๊ฐ๋ฅํ ์๋ ์๊ณ ๊ทธ๋ ์ง ์์ ์๋ ์๋ ์์ถ๋ ํต๊ณ์ ํํ์ด๋ค.
Woo๋ ํ์ฌ ๋
ผ์ ์ค์ธ ์กฐ์น๋คโTDM ์์ธ, ๊ณต์ ์ด์ฉ, ์ตํธ์์ ๋ฉ์ปค๋์ฆโ์ด ๊ธฐ๊ปํด์ผ ๋์ฆ์๋ฒ์ ๋ถ๊ณผํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ํ์ํ ๊ฒ์ ์ ์๊ถ์ ๊ดํ ๊ณต์ ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ธ ์ ํ์ด๋ค: ๋ณต์ ๋ฌผ์ ๋ํ ๋ฐฐํ์ ๊ถ๋ฆฌ์์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฐฝ์ถ๋ ๊ฐ์น์์ ๊ณต์ ํ ์ฐธ์ฌ๋ก์ ์ ํ์ด๋ค.
๊ธฐ์ -๋ฒ๋ฅ ์ ์
Pasetti et al.(2025)์ AI ํ๋ จ ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค์ ๊ธฐ์ ์ , ๋ฒ์ , ์ค๋ฆฌ์ ์ฐจ์์ ๋์์ ๋ค๋ฃฌ๋ค. ์ด๋ค์ ๊ธฐ์ฌ๋ ์ปดํจํฐ ๊ณผํ์๋ค์ด ๋ชจ๋ธ ํ๋ จ์ ๋ํด ์ดํดํ๋ ๋ฐ์ ๋ฒํ์๋ค์ด ์ด๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ด์ ๊ฐ๊ทน์ ๋ฉ์ฐ๋ ๋ฐ ์๋ค.
๊ธฐ์ ์ ํ์ค์ ๋ฒ์ ๋ถ์์ ์์ด ์ค์ํ๋ค: AI ํ๋ จ์ ์ ํต์ ์ธ ์๋ฏธ์์ ์ ์๋ฌผ์ "์ ์ฅ"ํ์ง ์๋๋ค. ํ๋ จ ๊ณผ์ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํตํด ์์ญ์ต ๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ก ์์ถํ์ฌ, ๋ฒ์ ์๋ฏธ์์์ ๋ณต์ ๋ฌผ๋ ์๋๊ณ ์ค์ฉ์ ์๋ฏธ์์ ์๋ณธ์ผ๋ก๋ถํฐ ๋
๋ฆฝ์ ์ด์ง๋ ์์ ํต๊ณ์ ํํ์ ์์ฑํ๋ค. ์ด๋ฌํ ์ค๊ฐ์ ์ง์โ๋ณต์ ๋ฌผ์ ์๋์ง๋ง ๋
๋ฆฝ์ ์ด์ง๋ ์์โ๊ฐ ๋ฐ๋ก ๊ธฐ์กด ์ ์๊ถ ์ฒด๊ณ๊ฐ ๋ค๋ฃจ๊ธฐ์ ์ ํฉํ์ง ์์ ์ง์ ์ด๋ค.
๊ดํ ๊ถ ๊ฐ ๋ถ๊ธฐ
Riaz(2026)๋ ๋ฒ๋ฆฌ์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฉํ์ฌ ๋ฒ๋ น, ํ๋ก๋ฒ, ๊ท์ ์ ์์ ๋ถ์ํจ์ผ๋ก์จ ์๊ตญ, EU, ๋ฏธ๊ตญ์ ๊ฑธ์น ์ฒด๊ณ์ ์ธ ๋น๊ต ๋ถ์์ ์ ๊ณตํ๋ค. ์ด ๋ถ์์ ๊ดํ ๊ถ ๊ฐ ๋ถ๊ธฐ๊ฐ ์๋ ด๋ณด๋ค๋ ํ๋๋๊ณ ์์์ ๋ณด์ฌ์ค๋ค:
- ์๊ตญ์ ์ฒ์์ ์์
์ ์ด์ฉ์ ์ํ ๊ด๋ฒ์ํ TDM ์์ธ๋ฅผ ์ ์ํ์ผ๋ ์ฐฝ์์๋ค์ ๋ฐ๋ฐ๋ก ์ด๋ฅผ ์ฒ ํํ์ฌ, ๋ฒ์ ์
์ฅ์ด ๋ถํ์คํ ์ํ๋ก ๋จ์ ์๋ค.
- EU๋ ์ตํธ์์ ์ฒด๊ณ๋ฅผ ๊ฐ์ถ๊ณ ์์ผ๋ ์งํ ๊ณผ์ ์ ์ง๋ฉดํด ์๋คโ๊ถ๋ฆฌ์๋ค์ด ์์ ๋ค์ ์ตํธ์์ ์ ์ธ์ด ์ค์๋๊ณ ์๋์ง ์ด๋ป๊ฒ ๋ชจ๋ํฐ๋งํ ์ ์๋๊ฐ?
- ๋ฏธ๊ตญ์ ์ฌ์๋ณ ๊ณต์ ์ด์ฉ ํ๋จ์ ์์กดํ๋ฉฐ, ๋ฒ์์ด ๋ณํ์ฑ(AI ๊ฐ๋ฐ์์๊ฒ ์ ๋ฆฌ)์ ๊ฐ์กฐํ๋์ง ์์ฅ ๋์ฒด(์ฐฝ์์์๊ฒ ์ ๋ฆฌ)๋ฅผ ๊ฐ์กฐํ๋์ง์ ๋ฐ๋ผ ์์ดํ ์ ๋ก๋ฅผ ํ๋ฆฝํ ์ ์๋ ๊ณ๋ฅ ์ค์ธ ์ฌ๊ฑด๋ค์ด ์๋ค.
๋ถ๊ธฐ์ ์ค์ง์ ์ธ ๊ฒฐ๊ณผ๋ ๊ท์ ์ฐจ์ต๊ฑฐ๋์ด๋ค: AI ๊ธฐ์
๋ค์ ํ์ฉ์ ์ธ ์ฒด๊ณ๋ฅผ ๊ฐ์ง ๊ดํ ๊ถ์์ ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ ์ ์ธ๊ณ์ ๋ฐฐํฌํ ์ ์๋ค. ์ด๋ฌํ ๊ฐ๋ฅ์ฑ์ ์ด๋ค ๋จ์ผ ๊ดํ ๊ถ์ ๊ท์ ์ ํ์ ์คํจ์ฑ์ ์ ํํ๊ณ ๊ตญ์ ์ ์กฐํ์ ๋ํ ์๋ ฅ์ ๋ง๋ค์ด ๋ด๋๋ฐโ๋ฒ ๋ฅธ ํ์ฝ์ ๊ธฐ์กด ์ฒด๊ณ๋ ์ด๋ฅผ ์ ๊ณตํ๋๋ก ์ค๊ณ๋์ง ์์๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| AI ํ๋ จ์ ๋ฏธ๊ตญ๋ฒ์ ๊ณต์ ์ด์ฉ์ ํด๋นํ๋ค | Dornis & Stober(2025): ์ฌ์ค ๊ด๊ณ ํน์ ์ ์ด๋ฉฐ, ๋ณธ์ง์ ์ผ๋ก ์์ธก ๋ถ๊ฐ๋ฅํ๊ณ , ํฉ๋ฆฌ์ ์ธ ๊ฒฌํด ์ฐจ์ด๊ฐ ๊ฐ๋ฅํ๋ค | โ ๏ธ ๋ถํ์ค (์์ก ๊ณ๋ฅ ์ค) |
| EU TDM ์ตํธ์์ ๋ฉ์ปค๋์ฆ์ ์ฐฝ์์๋ฅผ ์ถฉ๋ถํ ๋ณดํธํ๋ค | Thongmeensuk(2024), Riaz(2026): ์งํ ๊ณผ์ ๋ฐ ๊ถ๋ ฅ ๋น๋์นญ ํ์ธ๋จ | โ ๏ธ ๋ถํ์ค |
| ๊ธฐ์กด ์ ์๊ถ ์ฒด๊ณ๋ ์์ฑํ AI๋ฅผ ์์ฉํ ์ ์๋ค | Woo(2025): ๋ฒ ๋ฅธ ํ์ฝ์ ์ ์ ์์ ๊ทผ๋ณธ์ ์ธ ๋ถ์ผ์น | โ ๋ฐ๋ฐ๋จ (ํ์ฌ ๊ตฌ์ฑ ๊ธฐ์ค) |
| AI ํ์ต์ ๋ํ ๊ธฐ์ ์ ์ดํด๊ฐ ๋ฒ์ ๋ถ์์ ๋ณํ์ํจ๋ค | Pasetti et al. (2025): ๋ชจ๋ธ ๊ฐ์ค์น๋ ๋ณต์ ๋ฌผ๋ ๋
๋ฆฝ์ ์ฐฝ์๋ฌผ๋ ์๋๋ค | โ
์ง์ง๋จ |
| AI ํ์ต ๋ฐ์ดํฐ์ ๊ดํ ๊ดํ ๊ถ ์กฐํ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์๋ค | Riaz (2026): ์๊ตญ, EU, ๋ฏธ๊ตญ ๊ฐ ๊ฒฉ์ฐจ๊ฐ ์ฌํ๋๊ณ ์๋ค | โ ๋ฐ๋ฐ๋จ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
๊ณ๋ฅ ์ค์ธ ๋ฏธ๊ตญ ์ฌ๊ฑด๋ค์ด ๋ช
ํํ ์ ๋ก๋ฅผ ํ๋ฆฝํ ๊ฒ์ธ๊ฐ, ์๋๋ฉด ๋ถ์์ ๋์ฑ ๋ถ์ด์ํฌ ๊ฒ์ธ๊ฐ? NYT v. OpenAI๋ ๊ธฐ์ตํ(memorization)์ ์์ฅ ๋์ฒด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, Authors Guild v. Meta๋ ๋ณํ์ ์ด์ฉ(transformative use)์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ์๋ก ๋ค๋ฅธ ์ฌ์ค๊ด๊ณ๋ ์๋ก ๋ค๋ฅธ ๋ฒ๋ฆฌ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ ์ ์๋ค.๊ธฐ์ ์ ์๋จ์ด ๋ฒ์ ํด๊ฒฐ์ฑ
์ ๋์ฒดํ ์ ์๋๊ฐ? ์ฝํ
์ธ ์ถ์ฒ ํ์ค(C2PA), ํ์ต ๋ฐ์ดํฐ ์ถ์ฒ ์ถ์ , ์ถ๋ ฅ๋ฌผ ์ํฐ๋งํน์ ์ฑ
์ ์ถ์ ์ ์ํ ๊ธฐ์ ์ ์ธํ๋ผ๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ค์ ํจ๊ณผ๋ ์๋ฐ์ ์ธ ์ฑ๊ฒฉ์ ๋ ๋ ๋ณดํธ์ ์ฑํ์ ๋ฌ๋ ค ์๋ค.AI ํ์ต์ ๋ํ ๋ณด์์ ์ง๋จ์ ์ด์ด์ผ ํ๋๊ฐ, ๊ฐ์ธ์ ์ด์ด์ผ ํ๋๊ฐ? ์ง๋จ ๋ผ์ด์ ์ฑ(์์
๊ณต์ฐ๊ถ ๋จ์ฒด์ ์ ์ฌํ ๋ฐฉ์)์ ํ์ฅ ๊ฐ๋ฅํ ๋ณด์์ ์ ๊ณตํ ์ ์๋ค. ๊ทธ๋ฌ๋ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ๋ ์๋ฐฑ๋ง ์ฐฝ์์๋ค์ ์ด์ต์ ๋๊ฐ ๋ํํ ๊ฒ์ธ๊ฐ?์ตํธ์์(opt-out)ํ์ง ์์ ์ ์๋ฌผ์ ์ด๋ป๊ฒ ๋๋๊ฐ? EU ์ฒด๊ณ ํ์์, ๋ช
์์ ์ธ ์ตํธ์์ ์ ์ธ์ด ์๋ ์ ์๋ฌผ์ TDM(ํ
์คํธ ๋ฐ ๋ฐ์ดํฐ ๋ง์ด๋)์ ํ์ฉ ๊ฐ๋ฅํ๋ค. ์ด๋ ์ตํธ์์ํ ๊ธฐ์ ์ ์ง์์ด๋ ์์์ด ๋ถ์กฑํ ๊ฐ์ธ ์ฐฝ์์๋ค์๊ฒ ๋ถ๋ฆฌํ ๊ธฐ๋ณธ๊ฐ(default)์ ํ์ฑํ๋๊ฐ?์
๋ ฅ(ํ์ต)๊ณผ ์ถ๋ ฅ(์์ฑ) ๊ฐ์ ๊ตฌ๋ถ์ ๋ฒ์ ์ผ๋ก ์ผ๊ด์ฑ์ด ์๋๊ฐ? ํ์ฌ์ ๋ถ์์ ํ์ต๊ณผ ์์ฑ์ ๋ณ๊ฐ์ ๋ฒ์ ์ฌ๊ฑด์ผ๋ก ๋ค๋ฃจ๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์ ์ ๊ด์ ์์ ์ถ๋ ฅ๋ฌผ์ ์
๋ ฅ์ ํจ์์ด๋ฉฐ, ์ด ๋์ ๋ถ๋ฆฌํ๋ ๊ฒ์ ๋ถ์์ ์ผ๋ก๋ ํธ๋ฆฌํ์ง๋ง ์ค์ง์ ์ผ๋ก๋ ์คํด๋ฅผ ๋ถ๋ฌ์ผ์ผํฌ ์ ์๋ค.์์ฌ์
AI ํ์ต ๋ฐ์ดํฐ์ ๋ฒ์ ์ง์๋ ์์ฑํ AI๊ฐ ์ฐฝ์ถํ๋ ๊ฒฝ์ ์ ๊ฐ์น๊ฐ AI ๊ธฐ์
๊ณผ ์ฝํ
์ธ ์ฐฝ์์ ์ฌ์ด์์ ์ด๋ป๊ฒ ๋ถ๋ฐฐ๋๋์ง๋ฅผ ๊ฒฐ์ ํ ๊ฒ์ด๋ค. ํ์ต์ด ๊ด๋ฒ์ํ๊ฒ ํ์ฉ๋๋ค๋ฉด(๊ณต์ ์ด์ฉ ๋๋ TDM ์์ธ ์กฐํญ์ ๋ฐ๋ผ), ๊ฐ์น๋ AI ๊ฐ๋ฐ์์ ๊ทธ ์ด์ฉ์์๊ฒ ๊ท์๋๋ค. ํ์ต์ ๋ผ์ด์ ์ฑ์ด ์๊ตฌ๋๋ค๋ฉด ๊ฐ์น๋ ๊ณต์ ๋์ง๋ง, ์๋ฐฑ๋ง ์ ์๋ฌผ์ ๋ํ ๋ผ์ด์ ์ฑ ๊ฑฐ๋๋น์ฉ์ ์ง๋จ์ ๋ฉ์ปค๋์ฆ ์์ด๋ ๊ฐ๋นํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค.
๋ณธ ์ฐ๊ตฌ์์ ๊ฒํ ํ ๋ฌธํ๋ค์ ํํ ๋ฒ์ ์ฒด๊ณ๊ฐ, ์ฆ ์๋ณ ๊ฐ๋ฅํ ๋ณต์ ๋ฌผ, ๊ฐ๋ณ์ ์ด์ฉ, ๊ตญ๊ฐ์ ๊ดํ ๊ถ์ ์ ์ ๋ก ์ค๊ณ๋ ์ฒด๊ณ๊ฐ, ์๋ฐฑ๋ง ์ ์๋ฌผ์ ํต๊ณ์ ํํ์ผ๋ก ์์ถํ๊ณ , ์ ์ธ๊ณ์ ์ผ๋ก ๋ฐฐํฌํ๋ฉฐ, ํ์๊ณผ ์ฐฝ์์ ๊ฒฝ๊ณ๋ฅผ ํ๋ฆฌ๋ ์ถ๋ ฅ๋ฌผ์ ์์ฑํ๋ ๊ธฐ์ ์ ์ ํฉํ์ง ์์์ ์์ฌํ๋ค. ํ์ํ ๊ฒ์ ์ ์ง์ ๊ฐํ์ด ์๋๋ผ ๊ฐ๋
์ ํ์ , ์ฆ AI ํ์ต์ ๊ธฐ์ ์ ํ์ค๊ณผ ์์ฑํ AI ์์ฅ์ ๊ฒฝ์ ์ ํ์ค์ ๋ฐ์ํ๋ ์๋ก์ด ๋ฒ์ ๋ฒ์ฃผ์ด๋ค.
References (5)
[1] Thongmeensuk, S. (2024). Rethinking Copyright Exceptions in the Era of Generative AI: Balancing Innovation and Intellectual Property Protection. Journal of World Intellectual Property, 27(4).
[2] Dornis, T.W. & Stober, S. (2025). Generative AI Training and Copyright Law. arXiv:2502.15858.
[3] Pasetti, M., Santos, J.W., Corrรชa, N., de Oliveira, N., & Barbosa, C. (2025). Technical, Legal, and Ethical Challenges of Generative AI: An Analysis of the Governance of Training Data and Copyrights. Discover Artificial Intelligence, 5, 379.
[4] Riaz, C.H. (2026). The Legal Status of AI Training Data: A Cross-Jurisdictional Analysis of Copyright, Fair Use, and Text-and-Data Mining. International Journal of Science and Research Archive, 18(1), 166.
[5] Woo, M. (2025). Generative AI and Copyright Law: The De Facto End of the Berne Convention Era and the Need for a Shift in the Public Paradigm. Korean Digital Property Studies, 38(3), 41.