Trend AnalysisArts & Design
AI in Music Composition and Production: From MIDI Models to Industry Disruption
AI music generation has reached a tipping point: variational autoencoders produce genre-specific compositions, while the music industry scrambles to adapt its business models. The technical capability is provenโnow the questions are legal, economic, and artistic.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Why It Matters
Music generation was one of the first domains where AI demonstrated creative capabilityโalgorithmic composition dates back to Lejaren Hiller's ILLIAC Suite in 1957. But the gap between academic experiments and commercially viable music was enormous until recently. Deep learning models can now generate music that is not merely technically correct but emotionally compelling and genre-appropriate. Services like Suno, Udio, and AIVA generate full-length tracks from text prompts in seconds, at quality levels sufficient for commercial use in advertising, gaming, and content creation.
This technological leap is simultaneously a creative opportunity and an economic disruption. The global music industry generates approximately $28 billion annually, and a significant portion of that revenue flows to composers, arrangers, and session musicians whose work overlaps with AI capabilities. Understanding both the technical foundations and the industry dynamics is essential for anyone working at the intersection of music and technology.
The Science / The Practice
Variational Autoencoders for Genre-Specific Generation
Bairwa et al. (2024), with 2 citations, introduce MGU-V (Music Generation Using Variational Autoencoders), a deep learning framework that achieves state-of-the-art performance on combined MIDI datasets. The system specifically targets lo-fi musicโa genre characterized by relaxed tempos, warm timbres, and deliberate imperfections. The choice of genre is strategic: lo-fi music is one of the largest categories of AI-generated music, with millions of streams on platforms like Spotify as study/focus music. The VAE architecture allows the system to learn latent representations of musical style, enabling controlled generation that stays within genre boundaries while producing novel compositions.
Technical, Musical, and Legal Integration
Kwiecien et al. (2024), with 7 citations, provide the most comprehensive analysis by examining AI music production across three dimensions simultaneously: technical architecture, musical quality, and legal implications. Their review traces the evolution from early algorithmic composition through GANs and Transformers to current deep learning approaches, noting that while technical capabilities have advanced rapidly, the legal frameworks for AI-generated music remain unclear across jurisdictions. The paper argues that technical, artistic, and legal considerations cannot be separatedโa music generation system is only as useful as the legal certainty of its outputs.
Historical Context and Current Capabilities
Singh and Jadhav (2025) provide a survey of the current state of AI music composition, tracing the trajectory from rule-based systems through machine learning to the current generation of foundation models. Their analysis distinguishes between AI as composition assistant (suggesting harmonies, generating accompaniments) and AI as autonomous composer (generating complete works from minimal input). The paper notes that current models excel at reproducing existing styles but struggle with genuine musical innovationโa finding consistent with broader observations about generative AI's strength in interpolation versus extrapolation.
Industry and Business Model Impact
Malik et al. (2025), with 1 citation, examine the business strategies of AI-based music startups, analyzing how machine learning, deep learning, and NLP are being deployed to redefine music creation, production, and distribution. The paper identifies three business model archetypes: tool-based (AI assists human musicians), service-based (AI generates music on demand for commercial clients), and platform-based (AI mediates between creators and consumers). The platform modelโwhere AI generates music that is directly consumed without human musician involvementโrepresents the most disruptive scenario for the existing music industry.
AI Music Generation: Technical Approaches
<
| Approach | Strength | Musical Quality | Commercial Readiness |
|---|
| VAE (Bairwa et al.) | Style-consistent generation | High within genre | Ready for background music |
| Transformer-based | Long-range musical structure | Variable | Improving rapidly |
| GAN-based | Audio-level generation | High fidelity | Ready for production |
| Diffusion models | Novel timbres and textures | Experimental | Early stage |
| Hybrid (Kwiecien et al.) | Multi-aspect optimization | Best overall | Legal uncertainty limits deployment |
What To Watch
The next frontier is not generating musicโthat problem is largely solved for commercial applications. The open questions are: (1) whether AI can create music that is genuinely novel rather than derivative of training data, (2) how royalty and attribution systems will adapt to AI-generated content, and (3) whether audiences will value AI-generated music differently from human-composed music when they know the origin. Watch for the emergence of "AI music labels" that openly brand their catalogs as machine-generated, testing whether transparency about AI origin affects commercial success.
Explore related work through ORAA ResearchBrain.
์ ์ค์ํ๊ฐ
์์
์์ฑ์ AI๊ฐ ์ฐฝ์์ ์ญ๋์ ์ฒ์์ผ๋ก ์
์ฆํ ๋ถ์ผ ์ค ํ๋์ด๋ค. ์๊ณ ๋ฆฌ์ฆ ์๊ณก์ ์ญ์ฌ๋ 1957๋
Lejaren Hiller์ ILLIAC Suite๊น์ง ๊ฑฐ์ฌ๋ฌ ์ฌ๋ผ๊ฐ๋ค. ๊ทธ๋ฌ๋ ํ๋ฌธ์ ์คํ๊ณผ ์์
์ ์ผ๋ก ์ค์ฉ ๊ฐ๋ฅํ ์์
์ฌ์ด์ ๊ฐ๊ทน์ ์ต๊ทผ๊น์ง ๋งค์ฐ ์ปธ๋ค. ์ด์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋จ์ํ ๊ธฐ์ ์ ์ผ๋ก ์ ํํ ์์ค์ ๋์ด, ๊ฐ์ ์ ํธ์๋ ฅ๊ณผ ์ฅ๋ฅด ์ ํฉ์ฑ์ ๊ฐ์ถ ์์
์ ์์ฑํ ์ ์๋ค. Suno, Udio, AIVA ๊ฐ์ ์๋น์ค๋ ํ
์คํธ ํ๋กฌํํธ๋ก๋ถํฐ ๋ช ์ด ๋ง์ ์์ ํ ๊ธธ์ด์ ํธ๋์ ์์ฑํ๋ฉฐ, ๊ด๊ณ ยท๊ฒ์ยท์ฝํ
์ธ ์ ์ ๋ถ์ผ์ ์์
์ ์ฌ์ฉ์ ์ถฉ๋ถํ ํ์ง์ ๊ฐ์ถ๊ณ ์๋ค.
์ด๋ฌํ ๊ธฐ์ ์ ๋์ฝ์ ๋์์ ์ฐฝ์์ ๊ธฐํ์ด์ ๊ฒฝ์ ์ ํ์ ์ด๋ค. ๊ธ๋ก๋ฒ ์์
์ฐ์
์ ์ฐ๊ฐ ์ฝ 280์ต ๋ฌ๋ฌ์ ๋งค์ถ์ ์ฐฝ์ถํ๋ฉฐ, ๊ทธ ์์ต์ ์๋น ๋ถ๋ถ์ด AI์ ์ญ๋๊ณผ ๊ฒน์น๋ ์๊ณก๊ฐยทํธ๊ณก๊ฐยท์ธ์
๋ฎค์ง์
์๊ฒ ํ๋ฌ๊ฐ๋ค. ์์
๊ณผ ๊ธฐ์ ์ ๊ต์ฐจ์ ์์ ์ผํ๋ ๋ชจ๋ ์ด๋ค์๊ฒ ๊ธฐ์ ์ ํ ๋์ ์ฐ์
์ญํ์ ๋ชจ๋ ์ดํดํ๋ ๊ฒ์ ํ์์ ์ด๋ค.
์ฐ๊ตฌ ๋ด์ฉ
์ฅ๋ฅด๋ณ ์์ฑ์ ์ํ ๋ณ๋ถ ์คํ ์ธ์ฝ๋
Bairwa et al. (2024)์ ํผ์ธ์ฉ 2ํ๋ก, ๋ณตํฉ MIDI ๋ฐ์ดํฐ์
์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ MGU-V(Music Generation Using Variational Autoencoders)๋ฅผ ์๊ฐํ๋ค. ์ด ์์คํ
์ ํนํ ๋๋ฆฐ ํ
ํฌ, ๋ฐ๋ปํ ์์, ์๋์ ์ธ ๋ถ์์ ํจ์ด ํน์ง์ธ ๋กํ์ด(lo-fi) ์์
์ ๋์์ผ๋ก ํ๋ค. ์ฅ๋ฅด ์ ํ์ ์ ๋ต์ ์ด๋ค. ๋กํ์ด ์์
์ AI ์์ฑ ์์
์ค ๊ฐ์ฅ ํฐ ์นดํ
๊ณ ๋ฆฌ ์ค ํ๋๋ก, Spotify ๊ฐ์ ํ๋ซํผ์์ ํ์ตยท์ง์ค์ฉ ์์
์ผ๋ก ์๋ฐฑ๋ง ํ ์คํธ๋ฆฌ๋ฐ๋๋ค. VAE ์ํคํ
์ฒ๋ ์์คํ
์ด ์์
์ ์คํ์ผ์ ์ ์ฌ ํํ(latent representation)์ ํ์ตํ๋๋ก ํ์ฌ, ์ฅ๋ฅด ๊ฒฝ๊ณ๋ฅผ ์ ์งํ๋ฉด์๋ ์๋ก์ด ์๊ณก์ ์์ฑํ๋ ์ ์ด๋ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๊ธฐ์ ยท์์
ยท๋ฒ์ ์ธก๋ฉด์ ํตํฉ์ ๋ถ์
Kwiecien et al. (2024)์ ํผ์ธ์ฉ 7ํ๋ก, AI ์์
์ ์์ ๊ธฐ์ ์ํคํ
์ฒยท์์
์ ํ์งยท๋ฒ์ ํจ์๋ผ๋ ์ธ ๊ฐ์ง ์ฐจ์์์ ๋์์ ๋ถ์ํ ๊ฐ์ฅ ํฌ๊ด์ ์ธ ์ฐ๊ตฌ๋ฅผ ์ ์ํ๋ค. ์ด ๋ฆฌ๋ทฐ๋ ์ด๊ธฐ ์๊ณ ๋ฆฌ์ฆ ์๊ณก๋ถํฐ GAN, Transformer๋ฅผ ๊ฑฐ์ณ ํ์ฌ์ ๋ฅ๋ฌ๋ ์ ๊ทผ๋ฒ๊น์ง์ ๋ฐ์ ๊ณผ์ ์ ์ถ์ ํ๋ฉฐ, ๊ธฐ์ ์ ์ญ๋์ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ์ง๋ง AI ์์ฑ ์์
์ ๋ํ ๋ฒ์ ์ฒด๊ณ๋ ๊ฐ ๊ดํ ๊ถ์์ ์ฌ์ ํ ๋ถ๋ช
ํํ๋ค๊ณ ์ง์ ํ๋ค. ์ด ๋
ผ๋ฌธ์ ๊ธฐ์ ์ ยท์์ ์ ยท๋ฒ์ ๊ณ ๋ ค์ฌํญ์ ๋ถ๋ฆฌ๋ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ์์
์์ฑ ์์คํ
์ ์ ์ฉ์ฑ์ ๊ทธ ์ฐ์ถ๋ฌผ์ ๋ฒ์ ํ์ค์ฑ์ ๋ฌ๋ ค ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ญ์ฌ์ ๋งฅ๋ฝ๊ณผ ํ์ฌ์ ์ญ๋
Singh and Jadhav (2025)๋ ๊ท์น ๊ธฐ๋ฐ ์์คํ
์์ ๋จธ์ ๋ฌ๋์ ๊ฑฐ์ณ ํ์ฌ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ธ๋์ ์ด๋ฅด๊ธฐ๊น์ง AI ์์
์๊ณก์ ํ ์ํ๋ฅผ ๊ฐ๊ดํ๋ ์๋ฒ ์ด๋ฅผ ์ ๊ณตํ๋ค. ์ด ๋ถ์์ AI๋ฅผ ์๊ณก ๋ณด์กฐ ๋๊ตฌ(ํ์ฑ ์ ์, ๋ฐ์ฃผ ์์ฑ)๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์ AI๋ฅผ ์์จ ์๊ณก๊ฐ(์ต์ํ์ ์
๋ ฅ์ผ๋ก ์์ฑ๋ ์ํ ์์ฑ)๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ฅผ ๊ตฌ๋ณํ๋ค. ํ์ฌ ๋ชจ๋ธ์ ๊ธฐ์กด ์คํ์ผ ์ฌํ์๋ ๋ฐ์ด๋์ง๋ง ์ง์ ํ ์์
์ ํ์ ์๋ ํ๊ณ๋ฅผ ๋ณด์ธ๋ค๊ณ ์ง์ ํ๋ฉฐ, ์ด๋ ์์ฑํ AI๊ฐ ๋ด์ฝ(interpolation)์๋ ๊ฐํ์ง๋ง ์ธ์ฝ(extrapolation)์๋ ์ฝํ๋ค๋ ๊ด๋ฒ์ํ ๊ด์ฐฐ๊ณผ ์ผ์นํ๋ค.
์ฐ์
๋ฐ ๋น์ฆ๋์ค ๋ชจ๋ธ์ ๋ํ ์ํฅ
Malik et al. (2025)์ ํผ์ธ์ฉ 1ํ๋ก, AI ๊ธฐ๋ฐ ์์
์คํํธ์
์ ๋น์ฆ๋์ค ์ ๋ต์ ๊ฒํ ํ๋ฉฐ, ๋จธ์ ๋ฌ๋ยท๋ฅ๋ฌ๋ยทNLP๊ฐ ์์
์ฐฝ์ยท์ ์ยท์ ํต์ ์ฌ์ ์ํ๋ ๋ฐ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง ๋ถ์ํ๋ค. ์ด ๋
ผ๋ฌธ์ ์ธ ๊ฐ์ง ๋น์ฆ๋์ค ๋ชจ๋ธ ์ ํ์ ์ ์ํ๋ค. ๋๊ตฌํ(AI๊ฐ ์ธ๊ฐ ๋ฎค์ง์
์ ๋ณด์กฐ), ์๋น์คํ(AI๊ฐ ์์
๊ณ ๊ฐ์ ์์ฒญ์ ๋ฐ๋ผ ์์
์ ์์ฑ), ํ๋ซํผํ(AI๊ฐ ์ฐฝ์์์ ์๋น์ ์ฌ์ด๋ฅผ ๋งค๊ฐ)์ด ๊ทธ๊ฒ์ด๋ค. AI๊ฐ ์ธ๊ฐ ๋ฎค์ง์
์ ๊ฐ์
์์ด ์ง์ ์๋น๋๋ ์์
์ ์์ฑํ๋ ํ๋ซํผ ๋ชจ๋ธ์ ๊ธฐ์กด ์์
์ฐ์
์ ๊ฐ์ฅ ํฐ ํ์ ์ ๊ฐ์ ธ์ค๋ ์๋๋ฆฌ์ค๋ก ๊ผฝํ๋ค.
AI ์์
์์ฑ: ๊ธฐ์ ์ ์ ๊ทผ๋ฒ ๋น๊ต
<
| ์ ๊ทผ๋ฒ | ๊ฐ์ | ์์
์ ํ์ง | ์์
์ ์ค๋น๋ |
|---|
| VAE (Bairwa et al.) | ์คํ์ผ ์ผ๊ด์ฑ ์๋ ์์ฑ | ์ฅ๋ฅด ๋ด ๋์ | ๋ฐฐ๊ฒฝ ์์
์ฉ์ผ๋ก ์ค๋น ์๋ฃ |
| Transformer ๊ธฐ๋ฐ | ์ฅ๊ฑฐ๋ฆฌ ์์
๊ตฌ์กฐ | ๊ฐ๋ณ์ | ๋น ๋ฅด๊ฒ ํฅ์ ์ค |
| GAN ๊ธฐ๋ฐ | ์ค๋์ค ์์ค ์์ฑ | ๋์ ์ถฉ์ค๋ | ์ ์์ฉ์ผ๋ก ์ค๋น ์๋ฃ |
| ํ์ฐ ๋ชจ๋ธ | ์๋ก์ด ์์๊ณผ ์ง๊ฐ | ์คํ์ | ์ด๊ธฐ ๋จ๊ณ |
| ํ์ด๋ธ๋ฆฌ๋ (Kwiecien et al.) | ๋ค์ฐจ์ ์ต์ ํ | ์ ๋ฐ์ ์ผ๋ก ์ต์ | ๋ฒ์ ๋ถํ์ค์ฑ์ด ๋ฐฐํฌ๋ฅผ ์ ํ |
์ฃผ๋ชฉํ ๋ํฅ
๋ค์ ํ๋ก ํฐ์ด๋ ์์
์์ฑ ์์ฒด๊ฐ ์๋๋ค. ์์
์ ์์ฉ์์ ๊ทธ ๋ฌธ์ ๋ ๋๋ถ๋ถ ํด๊ฒฐ๋์๋ค. ๋จ์ ํต์ฌ ์ง๋ฌธ์ ๋ค์๊ณผ ๊ฐ๋ค. (1) AI๊ฐ ํ์ต ๋ฐ์ดํฐ์ ํ์๋ฌผ์ด ์๋ ์ง์ ์ผ๋ก ์๋ก์ด ์์
์ ์ฐฝ์ํ ์ ์๋๊ฐ, (2) ์ ์๊ถ๋ฃ์ ๊ท์(attribution) ์ฒด๊ณ๊ฐ AI ์์ฑ ์ฝํ
์ธ ์ ์ด๋ป๊ฒ ์ ์ํ ๊ฒ์ธ๊ฐ, (3) ์ฒญ์ค์ด AI ์์ฑ ์์
์ ์ถ์ฒ๋ฅผ ์์์ ๋ ์ธ๊ฐ์ด ์๊ณกํ ์์
๊ณผ ๋ค๋ฅด๊ฒ ํ๊ฐํ ๊ฒ์ธ๊ฐ. ์นดํ๋ก๊ทธ๋ฅผ ๊ธฐ๊ณ ์์ฑ๋ฌผ๋ก ๊ณต๊ฐ์ ์ผ๋ก ๋ธ๋๋ฉํ๋ 'AI ์์
๋ ์ด๋ธ'์ ๋ฑ์ฅ์ ์ฃผ๋ชฉํ๋ผ. ์ด๋ AI ์ถ์ฒ ๊ณต๊ฐ๊ฐ ์์
์ ์ฑ๊ณต์ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ์ํํ๋ ์ฅ์ด ๋ ๊ฒ์ด๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (4)
[1] Bairwa, A. K., Bhat, S., & Sawant, T. (2024). MGU-V: A Deep Learning Approach for Lo-Fi Music Generation Using Variational Autoencoders With State-of-the-Art Performance on Combined MIDI Datasets. IEEE Access.
[2] Kwiecien, J., Skrzynski, P., & Chmiel, W. (2024). Technical, Musical, and Legal Aspects of an AI-Aided Algorithmic Music Production System. Applied Sciences, 14(9).
[3] Singh, S., & Jadhav, S. (2025). Music composition with AI. World Journal of Advanced Research and Reviews, 25(3).
[4] Malik, M., Patil, V. V., & Pallavi, M. (2025). Management Strategies for AI-Based Music Startups. ShodhKosh.