Methodology GuideAI & Machine Learning
EVA: Variance-Aware Initialization That Improves LoRA Across Tasks and Modalities
EVA (Explained Variance Adaptation) replaces LoRA's random initialization with a data-driven approach that captures the directions of highest variance in the pretrained weight matrices โ yielding consistent improvements across language, vision, and reinforcement learning tasks without increasing inference cost.
By ORAA Research
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Low-Rank Adaptation (LoRA) has become the dominant method for parameter-efficient finetuning of foundation models. By decomposing weight updates into low-rank matrices (W = Wโ + BA, where B and A are small), LoRA reduces trainable parameters by orders of magnitude while maintaining competitive performance. The method is elegant, simple to implement, and adds zero inference latency since the adapted weights can be merged back.
Yet a design choice that the original LoRA paper treated as a minor detail โ how to initialize A and B โ turns out to matter substantially. Standard LoRA initializes A with random Gaussian values and B with zeros, ensuring the starting update is zero. This is safe but uninformed: the initialization ignores the structure of the pretrained weights entirely. EVA (Explained Variance Adaptation) proposes a principled alternative.
The Research Landscape
The Core Idea: Initialize Where It Matters
Paischer et al. (2024) introduce EVA with a clear motivation: not all directions in weight space are equally important. The pretrained weight matrix Wโ has a specific singular value structure โ some directions capture high-variance features (those the model has learned to rely on), while others capture noise or rarely-activated patterns.
Standard LoRA initialization is agnostic to this structure. EVA performs a data-driven singular value decomposition (SVD) of the pretrained weights, weighted by activation statistics from a small calibration dataset, and initializes the LoRA matrices A and B to align with the directions of highest explained variance. Concretely:
Run a small batch of data through the model to collect activation statistics.
Compute the SVD of the weight matrices, weighted by these activations.
Initialize A and B from the top-r singular vectors (where r is the LoRA rank).This ensures the low-rank update starts by modifying the directions that matter most for the model's current function โ rather than random directions that may or may not align with important features.
The Extended Version: Cross-Modal Generalization
The extended paper (Paischer et al., 2024, "One Initialization to Rule them All") demonstrates EVA across multiple domains:
Language models: On LLaMA and Mistral finetuning benchmarks, EVA consistently improves over standard LoRA initialization, with gains most pronounced at low ranks (r=4 or r=8) where the choice of which directions to adapt is most constrained.
Vision models: On ViT finetuning for image classification, EVA shows comparable improvements, suggesting the principle generalizes beyond language.
Reinforcement learning: On decision transformer tasks, EVA initialization accelerates convergence and improves final performance โ an interesting extension since RL finetuning operates in a very different optimization landscape.
The key finding across all domains: EVA does not change the architecture, does not add parameters at inference time, and requires only a brief calibration step (typically a few hundred forward passes on unlabeled data). The improvement comes entirely from starting the optimization in a better place.
EVA has stimulated a line of research on LoRA initialization.
LoRA-DA (Zhang et al., 2025) takes a complementary approach: data-aware initialization via asymptotic analysis of gradient dynamics. Rather than using SVD of activations, LoRA-DA analyzes how the loss landscape responds to perturbations in different directions, initializing LoRA matrices to align with high-curvature directions. The motivation overlaps with EVA but the mechanism differs.
AILoRA (Ji et al., 2025) proposes function-aware asymmetric initialization, where A and B are initialized differently based on their distinct roles in the forward and backward pass. This addresses the observation that the standard symmetric treatment of A and B is suboptimal when the weight matrix has non-uniform singular value distributions.
Critical Analysis
<
| Claim | Evidence | Verdict |
|---|
| EVA improves over random LoRA initialization across tasks | Consistent improvements on language, vision, and RL benchmarks | โ
Supported โ improvements are consistent, though magnitude varies by task and rank |
| Gains are largest at low ranks | Experiments at r=4, 8, 16, 32 show diminishing improvement as rank increases | โ
Supported โ at high ranks, random initialization eventually covers important directions anyway |
| EVA adds no inference cost | Initialization only affects training; adapted weights are merged identically to standard LoRA | โ
Supported โ by design |
| Calibration data requirements are minimal | A few hundred unlabeled examples suffice | โ
Supported โ though domain-matched calibration data performs better than random data |
| EVA represents the optimal initialization for LoRA | Other methods (LoRA-DA, AILoRA) offer competitive or complementary improvements | โ Overstated โ EVA is one of several promising approaches; optimality is not established |
Practical Implementation Guide
For practitioners considering EVA for their finetuning workflows:
When to use EVA: Low-rank finetuning (r โค 16) of large models where training budget is constrained. The initialization advantage is most impactful when you cannot afford many training steps to compensate for a poor starting point.
Calibration data: Use a small sample (256โ1024 examples) from the target domain. Unlabeled data suffices since only forward-pass activations are needed. If target domain data is unavailable, general-domain data still provides improvements over random initialization.
Computational overhead: The SVD computation and calibration pass add a one-time cost equivalent to a few training steps. For typical finetuning runs of hundreds or thousands of steps, this overhead is negligible.
Compatibility: EVA is compatible with LoRA variants (QLoRA, DoRA, LoRA+) since it only modifies initialization. It can be combined with other training enhancements without modification.
When EVA matters less: At high ranks (r โฅ 64) or with very long training schedules, the initialization advantage diminishes as training explores sufficient directions regardless of starting point. In these regimes, EVA's calibration overhead may not justify the marginal improvement.
Open Questions
Task-specific versus universal calibration: Does a single calibration pass with general data suffice for all downstream tasks, or does task-specific calibration provide meaningful additional benefit?Scaling behavior: EVA has been demonstrated on models up to ~13B parameters. How does the initialization advantage scale to 70B+ models?Interaction with quantization: QLoRA applies LoRA to quantized weights. Does EVA's SVD-based initialization interact favorably or unfavorably with quantization noise?Dynamic rank allocation: EVA's explained variance metric could inform per-layer rank allocation โ assigning higher rank to layers with more distributed variance and lower rank to layers with concentrated variance.Combining initialization methods: Could EVA (activation-weighted SVD) be combined with LoRA-DA (gradient-aware initialization) for further improvements?Closing
EVA demonstrates that LoRA initialization is not a trivial implementation detail but a design choice with measurable impact on finetuning quality. By aligning the low-rank update with directions of highest explained variance in the pretrained weights, EVA consistently improves over random initialization across language, vision, and RL domains โ with the largest gains at the low ranks where efficient finetuning operates. The method requires minimal calibration data, adds no inference cost, and is compatible with existing LoRA infrastructure. For practitioners working with parameter-efficient finetuning, EVA represents a low-cost improvement that shifts the efficiency-performance tradeoff in a favorable direction.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํน์ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
EVA: ๋ค์ํ ๊ณผ์ ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ฑธ์ณ LoRA๋ฅผ ๊ฐ์ ํ๋ ๋ถ์ฐ ์ธ์ ์ด๊ธฐํ
Low-Rank Adaptation (LoRA)์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ํจ์จ์ ํ์ธํ๋์ ์ํ ์ง๋ฐฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์๋ฆฌ ์ก์๋ค. ๊ฐ์ค์น ์
๋ฐ์ดํธ๋ฅผ ์ ๋ญํฌ ํ๋ ฌ๋ก ๋ถํด(W = Wโ + BA, ์ฌ๊ธฐ์ B์ A๋ ์๊ท๋ชจ ํ๋ ฌ)ํจ์ผ๋ก์จ, LoRA๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์์ญ์์ ์๋ฐฑ ๋ฐฐ๊น์ง ์ค์ธ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฐ์ํ๊ณ ๊ตฌํ์ด ๊ฐ๋จํ๋ฉฐ, ์ ์๋ ๊ฐ์ค์น๋ฅผ ๋ค์ ๋ณํฉํ ์ ์๊ธฐ ๋๋ฌธ์ ์ถ๋ก ์ ์ง์ฐ์ด ์ ํ ๋ฐ์ํ์ง ์๋๋ค.
๊ทธ๋ฌ๋ ์๋ LoRA ๋
ผ๋ฌธ์์ ์ฌ์ํ ์ธ๋ถ ์ฌํญ์ผ๋ก ๋ค๋ฃจ์๋ ์ค๊ณ ์ ํ โ A์ B๋ฅผ ์ด๋ป๊ฒ ์ด๊ธฐํํ ๊ฒ์ธ๊ฐ โ ์ด ์ค์ง์ ์ผ๋ก ์ค์ํ ๋ฌธ์ ์์ด ๋ฐํ์ก๋ค. ํ์ค LoRA๋ A๋ฅผ ๋ฌด์์ ๊ฐ์ฐ์์ ๊ฐ์ผ๋ก, B๋ฅผ 0์ผ๋ก ์ด๊ธฐํํ์ฌ ์์ ์ ์
๋ฐ์ดํธ๊ฐ 0์ด ๋๋๋ก ๋ณด์ฅํ๋ค. ์ด๋ ์์ ํ์ง๋ง ์ ๋ณด๊ฐ ์๋ ๋ฐฉ์์ผ๋ก, ์ด๊ธฐํ๊ฐ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น์ ๊ตฌ์กฐ๋ฅผ ์ ํ ๊ณ ๋ คํ์ง ์๋๋ค. EVA(Explained Variance Adaptation)๋ ์ด์ ๋ํ ์์น์ ์ธ ๋์์ ์ ์ํ๋ค.
์ฐ๊ตฌ ํํฉ
ํต์ฌ ์์ด๋์ด: ์ค์ํ ๊ณณ์์ ์ด๊ธฐํํ๊ธฐ
Paischer et al. (2024)์ ๋ช
ํํ ๋๊ธฐ๋ฅผ ๋ฐํ์ผ๋ก EVA๋ฅผ ์๊ฐํ๋ค: ๊ฐ์ค์น ๊ณต๊ฐ์ ๋ชจ๋ ๋ฐฉํฅ์ด ๋๋ฑํ๊ฒ ์ค์ํ ๊ฒ์ ์๋๋ค. ์ฌ์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ Wโ๋ ํน์ ํ ํน์ด๊ฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ผ๋ถ ๋ฐฉํฅ์ ๊ณ ๋ถ์ฐ ํน์ง(๋ชจ๋ธ์ด ์์กดํ๋๋ก ํ์ต๋ ํน์ง)์ ํฌ์ฐฉํ๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ๋ฐฉํฅ์ ๋
ธ์ด์ฆ๋ ๋๋ฌผ๊ฒ ํ์ฑํ๋๋ ํจํด์ ํฌ์ฐฉํ๋ค.
ํ์ค LoRA ์ด๊ธฐํ๋ ์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ์ธ์ํ์ง ๋ชปํ๋ค. EVA๋ ์๊ท๋ชจ ๋ณด์ ๋ฐ์ดํฐ์
์ ํ์ฑํ ํต๊ณ๋ก ๊ฐ์ค๋ ์ฌ์ ํ์ต ๊ฐ์ค์น์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํน์ด๊ฐ ๋ถํด(SVD)๋ฅผ ์ํํ๊ณ , LoRA ํ๋ ฌ A์ B๋ฅผ ์ต๋ ์ค๋ช
๋ถ์ฐ ๋ฐฉํฅ์ ์ ๋ ฌ๋๋๋ก ์ด๊ธฐํํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก:
์๊ท๋ชจ ๋ฐ์ดํฐ ๋ฐฐ์น๋ฅผ ๋ชจ๋ธ์ ํต๊ณผ์์ผ ํ์ฑํ ํต๊ณ๋ฅผ ์์งํ๋ค.
์ด๋ฌํ ํ์ฑํ๋ก ๊ฐ์ค๋ ๊ฐ์ค์น ํ๋ ฌ์ SVD๋ฅผ ๊ณ์ฐํ๋ค.
์์ r๊ฐ์ ํน์ด ๋ฒกํฐ(์ฌ๊ธฐ์ r์ LoRA ๋ญํฌ)๋ก๋ถํฐ A์ B๋ฅผ ์ด๊ธฐํํ๋ค.์ด๋ฅผ ํตํด ์ ๋ญํฌ ์
๋ฐ์ดํธ๊ฐ ์ค์ํ ํน์ง๊ณผ ์ ๋ ฌ๋ ์๋ ์๊ณ ๊ทธ๋ ์ง ์์ ์๋ ์๋ ๋ฌด์์ ๋ฐฉํฅ์ด ์๋๋ผ, ๋ชจ๋ธ์ ํ์ฌ ๊ธฐ๋ฅ์ ๊ฐ์ฅ ์ค์ํ ๋ฐฉํฅ์ ์์ ํ๋ ๊ฒ๋ถํฐ ์์ํ๋๋ก ๋ณด์ฅํ๋ค.
ํ์ฅ ๋ฒ์ : ๊ต์ฐจ ๋ชจ๋ฌ๋ฆฌํฐ ์ผ๋ฐํ
ํ์ฅ ๋
ผ๋ฌธ(Paischer et al., 2024, "One Initialization to Rule them All")์ ์ฌ๋ฌ ๋๋ฉ์ธ์ ๊ฑธ์ณ EVA๋ฅผ ์
์ฆํ๋ค:
์ธ์ด ๋ชจ๋ธ: LLaMA ๋ฐ Mistral ํ์ธํ๋ ๋ฒค์น๋งํฌ์์ EVA๋ ํ์ค LoRA ์ด๊ธฐํ์ ๋นํด ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋๋ฉฐ, ์ ์ํ ๋ฐฉํฅ์ ์ ํ์ด ๊ฐ์ฅ ์ ํ๋๋ ๋ฎ์ ๋ญํฌ(r=4 ๋๋ r=8)์์ ์ฑ๋ฅ ํฅ์์ด ๊ฐ์ฅ ๋๋๋ฌ์ง๋ค.
๋น์ ๋ชจ๋ธ: ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํ ViT ํ์ธํ๋์์ EVA๋ ์ ์ฌํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ฉฐ, ์ด ์์น์ด ์ธ์ด๋ฅผ ๋์ด์ ์ผ๋ฐํ๋จ์ ์์ฌํ๋ค.
๊ฐํ ํ์ต: decision transformer ๊ณผ์ ์์ EVA ์ด๊ธฐํ๋ ์๋ ด์ ๊ฐ์ํํ๊ณ ์ต์ข
์ฑ๋ฅ์ ํฅ์์ํจ๋ค โ RL ํ์ธํ๋์ด ๋งค์ฐ ๋ค๋ฅธ ์ต์ ํ ํ๊ฒฝ์์ ์๋ํ๋ค๋ ์ ์์ ํฅ๋ฏธ๋ก์ด ํ์ฅ์ด๋ค.
๋ชจ๋ ๋๋ฉ์ธ์ ๊ฑธ์น ํต์ฌ ๋ฐ๊ฒฌ: EVA๋ ์ํคํ
์ฒ๋ฅผ ๋ณ๊ฒฝํ์ง ์๊ณ , ์ถ๋ก ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๊ฐํ์ง ์์ผ๋ฉฐ, ๊ฐ๋จํ ๋ณด์ ๋จ๊ณ(์ผ๋ฐ์ ์ผ๋ก ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ๋ํด ์๋ฐฑ ๋ฒ์ ์์ ํ)๋ง ํ์๋ก ํ๋ค. ์ฑ๋ฅ ํฅ์์ ์ ์ ์ผ๋ก ๋ ๋์ ์์น์์ ์ต์ ํ๋ฅผ ์์ํ๋ ๊ฒ์์ ๋น๋กฏ๋๋ค.
๊ด๋ จ ์ด๊ธฐํ ๋ฐฉ๋ฒ
EVA๋ LoRA ์ด๊ธฐํ์ ๊ดํ ์ผ๋ จ์ ์ฐ๊ตฌ๋ฅผ ์ด๋ฐ์์ผฐ๋ค.
LoRA-DA (Zhang et al., 2025)๋ ๋ณด์์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค: ๊ฒฝ์ฌ ์ญํ์ ์ ๊ทผ ๋ถ์์ ํตํ ๋ฐ์ดํฐ ์ธ์ ์ด๊ธฐํ. ํ์ฑํ์ SVD๋ฅผ ์ฌ์ฉํ๋ ๋์ , LoRA-DA๋ ์์ค ์งํ์ด ์๋ก ๋ค๋ฅธ ๋ฐฉํฅ์ ์ญ๋์ ์ด๋ป๊ฒ ๋ฐ์ํ๋์ง๋ฅผ ๋ถ์ํ๊ณ , ๋์ ๊ณก๋ฅ ๋ฐฉํฅ์ ์ ๋ ฌ๋๋๋ก LoRA ํ๋ ฌ์ ์ด๊ธฐํํ๋ค. ๋๊ธฐ๋ EVA์ ๊ฒน์น์ง๋ง ๋ฉ์ปค๋์ฆ์ ๋ค๋ฅด๋ค.
AILoRA (Ji et al., 2025)๋ ์์ ํ(forward pass)์ ์ญ์ ํ(backward pass)์์์ ์๋ก ๋ค๋ฅธ ์ญํ ์ ๊ธฐ๋ฐ์ผ๋ก A์ B๋ฅผ ๋น๋์นญ์ ์ผ๋ก ์ด๊ธฐํํ๋ ๊ธฐ๋ฅ ์ธ์ ๋น๋์นญ ์ด๊ธฐํ(function-aware asymmetric initialization)๋ฅผ ์ ์ํ๋ค. ์ด๋ ๊ฐ์ค์น ํ๋ ฌ์ ํน์ด๊ฐ ๋ถํฌ๊ฐ ๊ท ์ผํ์ง ์์ ๋ A์ B๋ฅผ ํ์ค์ ์ผ๋ก ๋์นญ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด ์ต์ ์ด ์๋๋ผ๋ ๊ด์ฐฐ์ ๋์ํ ๊ฒ์ด๋ค.
๋นํ์ ๋ถ์
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| EVA๋ ๋ค์ํ ํ์คํฌ์์ ๋ฌด์์ LoRA ์ด๊ธฐํ๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋๋ค | ์ธ์ด, ๋น์ , RL ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ | โ
์ง์ง๋จ โ ํฅ์์ ์ผ๊ด์ ์ด๋, ๊ทธ ํฌ๊ธฐ๋ ํ์คํฌ์ ๋ญํฌ์ ๋ฐ๋ผ ๋ค๋ฆ |
| ๋ฎ์ ๋ญํฌ์์ ์ฑ๋ฅ ํฅ์์ด ๊ฐ์ฅ ํฌ๋ค | r=4, 8, 16, 32์์์ ์คํ์ ๋ญํฌ๊ฐ ์ฆ๊ฐํ ์๋ก ํฅ์ ํญ์ด ๊ฐ์ํจ์ ๋ณด์ฌ์ค | โ
์ง์ง๋จ โ ๋์ ๋ญํฌ์์๋ ๋ฌด์์ ์ด๊ธฐํ๋ ๊ฒฐ๊ตญ ์ค์ํ ๋ฐฉํฅ์ ์ปค๋ฒํ๊ฒ ๋จ |
| EVA๋ ์ถ๋ก ๋น์ฉ์ ์ถ๊ฐํ์ง ์๋๋ค | ์ด๊ธฐํ๋ ํ์ต์๋ง ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ ์๋ ๊ฐ์ค์น๋ ํ์ค LoRA์ ๋์ผํ๊ฒ ๋ณํฉ๋จ | โ
์ง์ง๋จ โ ์ค๊ณ์ ๋น์ฐํ ๊ฒฐ๊ณผ |
| ๋ณด์ ๋ฐ์ดํฐ ์๊ตฌ๋์ด ์ต์ํ๋ค | ๋ ์ด๋ธ์ด ์๋ ์๋ฐฑ ๊ฐ์ ์์๋ก ์ถฉ๋ถํจ | โ
์ง์ง๋จ โ ๋ค๋ง ๋๋ฉ์ธ์ด ์ผ์นํ๋ ๋ณด์ ๋ฐ์ดํฐ๊ฐ ๋ฌด์์ ๋ฐ์ดํฐ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข์ |
| EVA๋ LoRA์ ์ต์ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ด๋ค | ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค(LoRA-DA, AILoRA)๋ ๊ฒฝ์๋ ฅ ์๊ฑฐ๋ ์ํธ ๋ณด์์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํจ | โ ๊ณผ์ฅ๋จ โ EVA๋ ์ฌ๋ฌ ์ ๋งํ ์ ๊ทผ๋ฒ ์ค ํ๋์ด๋ฉฐ, ์ต์ ์ฑ์ ํ๋ฆฝ๋์ง ์์ |
์ค์ฉ์ ๊ตฌํ ๊ฐ์ด๋
ํ์ธํ๋ ์ํฌํ๋ก์ฐ์ EVA ๋์
์ ๊ณ ๋ คํ๋ ์ค๋ฌด์๋ฅผ ์ํ ์๋ด:
EVA๋ฅผ ์ฌ์ฉํด์ผ ํ ๋: ํ์ต ์์ฐ์ด ์ ํ๋ ๋ํ ๋ชจ๋ธ์ ์ ๋ญํฌ ํ์ธํ๋(r โค 16). ์ด๊ธฐํ์ ์ด์ ์ ๋ถ๋ํ ์์์ ์ ๋ณด์ํ๊ธฐ ์ํ ์ถฉ๋ถํ ํ์ต ์คํ
์ ํ๋ณดํ๊ธฐ ์ด๋ ค์ธ ๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ค.
๋ณด์ ๋ฐ์ดํฐ: ๋ชฉํ ๋๋ฉ์ธ์์ ์๊ท๋ชจ ์ํ(256โ1024๊ฐ์ ์์)์ ์ฌ์ฉํ๋ค. ์์ ํ ํ์ฑํ(forward-pass activation)๋ง ํ์ํ๋ฏ๋ก ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก๋ ์ถฉ๋ถํ๋ค. ๋ชฉํ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์ ์๋ ๊ฒฝ์ฐ, ์ผ๋ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ ๋ฌด์์ ์ด๊ธฐํ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค.
๊ณ์ฐ ์ค๋ฒํค๋: SVD ๊ณ์ฐ๊ณผ ๋ณด์ ํจ์ค(calibration pass)๋ ๋ช ๋ฒ์ ํ์ต ์คํ
์ ํด๋นํ๋ ์ผํ์ฑ ๋น์ฉ์ ์ถ๊ฐํ๋ค. ์๋ฐฑ ๋๋ ์์ฒ ์คํ
์ ๊ฑธ์น ์ผ๋ฐ์ ์ธ ํ์ธํ๋ ์คํ์์ ์ด ์ค๋ฒํค๋๋ ๋ฌด์ํ ์ ์๋ ์์ค์ด๋ค.
ํธํ์ฑ: EVA๋ ์ด๊ธฐํ๋ง ์์ ํ๋ฏ๋ก LoRA ๋ณํ(QLoRA, DoRA, LoRA+)๊ณผ ํธํ๋๋ค. ๋ค๋ฅธ ํ์ต ํฅ์ ๊ธฐ๋ฒ๊ณผ๋ ์์ ์์ด ๊ฒฐํฉํ ์ ์๋ค.
EVA์ ํจ๊ณผ๊ฐ ์ ์ ๋: ๋์ ๋ญํฌ(r โฅ 64)์ด๊ฑฐ๋ ๋งค์ฐ ๊ธด ํ์ต ์ผ์ ์์๋ ์์์ ์ ๋ฌด๊ดํ๊ฒ ํ์ต์ด ์ถฉ๋ถํ ๋ฐฉํฅ์ ํ์ํ๊ฒ ๋๋ฏ๋ก ์ด๊ธฐํ์ ์ด์ ์ด ์ค์ด๋ ๋ค. ์ด๋ฌํ ํ๊ฒฝ์์๋ EVA์ ๋ณด์ ์ค๋ฒํค๋๊ฐ ๋ฏธ๋ฏธํ ์ฑ๋ฅ ํฅ์์ ์ ๋นํํ์ง ๋ชปํ ์ ์๋ค.
๋ฏธํด๊ฒฐ ๊ณผ์
ํ์คํฌ ํนํ ๋ณด์ ๋ ๋ฒ์ฉ ๋ณด์ : ์ผ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋จ์ผ ๋ณด์ ํจ์ค๊ฐ ๋ชจ๋ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ์ถฉ๋ถํ๊ฐ, ์๋๋ฉด ํ์คํฌ ํนํ ๋ณด์ ์ด ์๋ฏธ ์๋ ์ถ๊ฐ์ ์ด์ ์ ์ ๊ณตํ๋๊ฐ?์ค์ผ์ผ๋ง ๋์: EVA๋ ์ต๋ ์ฝ 130์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์์ ์
์ฆ๋์๋ค. ์ด๊ธฐํ ์ด์ ์ 700์ต ๊ฐ ์ด์์ ๋ชจ๋ธ๋ก ํ์ฅ๋ ๋ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋๊ฐ?์์ํ์์ ์ํธ์์ฉ: QLoRA๋ ์์ํ๋ ๊ฐ์ค์น์ LoRA๋ฅผ ์ ์ฉํ๋ค. EVA์ SVD ๊ธฐ๋ฐ ์ด๊ธฐํ๋ ์์ํ ๋
ธ์ด์ฆ(quantization noise)์ ์ ๋ฆฌํ๊ฒ ์ํธ์์ฉํ๋๊ฐ, ์๋๋ฉด ๋ถ๋ฆฌํ๊ฒ ์ํธ์์ฉํ๋๊ฐ?๋์ ๋ญํฌ ํ ๋น: EVA์ ์ค๋ช
๋ ๋ถ์ฐ(explained variance) ์งํ๋ ๋ ์ด์ด๋ณ ๋ญํฌ ํ ๋น์ ํ์ฉ๋ ์ ์๋ค โ ๋ถ์ฐ์ด ๋ ๋ถ์ฐ๋ ๋ ์ด์ด์๋ ๋์ ๋ญํฌ๋ฅผ, ๋ถ์ฐ์ด ์ง์ค๋ ๋ ์ด์ด์๋ ๋ฎ์ ๋ญํฌ๋ฅผ ํ ๋นํ๋ค.์ด๊ธฐํ ๋ฐฉ๋ฒ์ ๊ฒฐํฉ: EVA(ํ์ฑํ ๊ฐ์ค SVD)์ LoRA-DA(๊ธฐ์ธ๊ธฐ ์ธ์ ์ด๊ธฐํ)๋ฅผ ๊ฒฐํฉํ์ฌ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์๋๊ฐ?๋ง์น๋ฉฐ
EVA๋ LoRA ์ด๊ธฐํ๊ฐ ์ฌ์ํ ๊ตฌํ ์ธ๋ถ์ฌํญ์ด ์๋๋ผ ๋ฏธ์ธ์กฐ์ ํ์ง์ ์ธก์ ๊ฐ๋ฅํ ์ํฅ์ ๋ฏธ์น๋ ์ค๊ณ ์ ํ์์ ๋ณด์ฌ์ค๋ค. ์ฌ์ ํ์ต๋ ๊ฐ์ค์น์์ ์ค๋ช
๋ ๋ถ์ฐ์ด ๊ฐ์ฅ ๋์ ๋ฐฉํฅ์ผ๋ก ์ ๋ญํฌ ์
๋ฐ์ดํธ๋ฅผ ์ ๋ ฌํจ์ผ๋ก์จ, EVA๋ ์ธ์ด, ๋น์ , RL ๋๋ฉ์ธ ์ ๋ฐ์ ๊ฑธ์ณ ๋ฌด์์ ์ด๊ธฐํ ๋๋น ์ผ๊ด๋๊ฒ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํจ์จ์ ์ธ ๋ฏธ์ธ์กฐ์ ์ด ์ด๋ฃจ์ด์ง๋ ๋ฎ์ ๋ญํฌ์์ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ต์ํ์ ๋ณด์ ๋ฐ์ดํฐ๋ง ํ์๋ก ํ๊ณ , ์ถ๋ก ๋น์ฉ์ ์ถ๊ฐํ์ง ์์ผ๋ฉฐ, ๊ธฐ์กด LoRA ์ธํ๋ผ์ ํธํ๋๋ค. ํ๋ผ๋ฏธํฐ ํจ์จ์ ๋ฏธ์ธ์กฐ์ ์ ๋ค๋ฃจ๋ ์ค๋ฌด์๋ค์๊ฒ EVA๋ ํจ์จ์ฑ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๋ฆฌํ ๋ฐฉํฅ์ผ๋ก ์ ํํ๋ ์ ๋น์ฉ ๊ฐ์ ๋ฐฉ๋ฒ์ด๋ค.
References (4)
Paischer, F., Hauzenberger, L., & Schmied, T. et al. (2024). One initialization to rule them all: Fine-tuning via explained variance adaptation. arXiv preprint.
Paischer, F., Hauzenberger, L., & Schmied, T. et al. (2024). Parameter efficient fine-tuning via explained variance adaptation. NeurIPS 2024.
Zhang, Q., Chu, C., & Peng, T. et al. (2025). LoRA-DA: Data-aware initialization for low-rank adaptation via asymptotic analysis. arXiv preprint.
Ji, X., Zhao, Z., & Gu, X. (2025). AILoRA: Function-aware asymmetric initialization for low-rank adaptation of large language models. arXiv preprint.