Paper ReviewComputer SystemsExperimental Design
Fine-Tuning 100B+ Models Without Backpropagation: Zeroth-Order Optimization Goes Distributed
Standard LLM fine-tuning requires storing model weights, gradients, optimizer states, and activationsโoften exceeding GPU memory for models above 70B parameters. DistZO2 eliminates backpropagation entirely, estimating gradients through forward-pass-only perturbation. Distributed across multiple GPUs, this enables fine-tuning of 100B+ models on hardware that cannot run standard training.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The memory cost of fine-tuning large language models is dominated not by the model weights themselves but by the backpropagation infrastructure: gradient tensors, optimizer states (Adam requires two momentum tensors per parameter), and activation checkpoints stored for the backward pass. For a 70B parameter model in mixed precision, the model weights occupy approximately 140GBโbut the full training state exceeds 500GB, requiring multi-GPU setups with sophisticated memory management (DeepSpeed ZeRO, FSDP) just to begin training.
Wang et al.'s DistZO2 takes a radical approach: eliminate backpropagation entirely. Zeroth-order (ZO) optimization estimates gradients by evaluating the loss at two slightly different parameter configurationsโa forward pass with parameters ฮธ and a forward pass with parameters ฮธ + ฮตz (where z is a random perturbation vector). The difference in loss, divided by ฮต, provides a gradient estimate along direction z.
This eliminates the need to store activations (no backward pass), optimizer momentum tensors (ZO uses simpler update rules), and gradient tensors. The memory footprint drops to approximately the model weights plus a single perturbation vectorโa reduction that enables fine-tuning models on hardware that cannot accommodate standard training.
From Single-GPU to Distributed ZO
Single-GPU zeroth-order optimization has a well-known weakness: high gradient variance. Each perturbation direction provides a one-dimensional gradient estimate; recovering the full gradient requires many perturbation directions. For models with billions of parameters, the number of perturbations needed for a useful gradient estimate is impractically large on a single GPU.
DistZO2 solves this through distribution: each GPU in the cluster computes gradient estimates along different perturbation directions, and the results are aggregated. With N GPUs, the gradient estimate improves by a factor of โN (standard Monte Carlo convergence), making distributed ZO optimization both faster and more accurate than the single-GPU version.
The distributed coordination is lightweight: each GPU independently samples a random perturbation direction, computes two forward passes, and broadcasts its scalar gradient estimate. The communication volume is negligible compared to the gradient all-reduce operations in standard distributed trainingโmaking DistZO2 communication-efficient in addition to memory-efficient.
Convergence Characteristics
ZO optimization converges more slowly than first-order (gradient-based) optimizationโthis is the fundamental tradeoff. Each ZO gradient estimate is noisier than the true gradient, requiring more update steps to reach the same loss level. The convergence rate depends on the model dimensionality (larger models need more perturbations), the perturbation scale ฮต (smaller ฮต gives more accurate but noisier estimates), and the learning rate schedule.
In practice, ZO optimization requires more forward passes than standard fine-tuning to reach comparable quality, since each gradient estimate is noisier than the true gradient. But since each forward pass is cheaper (no backward pass, no activation storage), the total wall-clock time can be competitiveโand the memory savings enable experiments that are simply impossible with standard training on the available hardware.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| ZO eliminates backpropagation memory overhead | Mathematical proof; no activations or gradient tensors needed | โ
Proven |
| Distributed ZO improves gradient quality over single-GPU | โN improvement from aggregating N independent estimates | โ
Supported (standard result) |
| DistZO2 enables fine-tuning of models too large for standard training | Demonstrated on 100B+ parameter models on limited GPU memory | โ
Demonstrated |
| ZO fine-tuning matches standard fine-tuning quality | Quality gap exists; more iterations needed due to gradient noise | โ ๏ธ Approaches but does not match |
| ZO is practical for all fine-tuning scenarios | Most beneficial for memory-constrained settings; standard training is preferred when memory is available | โ ๏ธ Situational |
Open Questions
Task-specific quality gap: Does the ZO-standard quality gap vary across tasks? Fine-tuning for simple classification may tolerate ZO noise well; fine-tuning for complex reasoning may suffer more. Task-specific analysis is needed.Combination with LoRA: Can ZO be combined with parameter-efficient fine-tuning (LoRA, QLoRA) for additional memory savings? The combination would further reduce the number of parameters being optimized, potentially improving ZO convergence.Adaptive perturbation: Should the perturbation scale ฮต adapt during training? Larger ฮต early in training (for faster exploration) and smaller ฮต later (for finer optimization) might improve convergence.Hybrid approaches: Can we use ZO for most parameters and first-order optimization for a small subset of critical parameters? This hybrid might combine ZO's memory efficiency with first-order's convergence speed.What This Means for Your Research
For ML practitioners with limited GPU resources, DistZO2 opens the possibility of fine-tuning models that were previously out of reach. A research lab with 4 ร A100 GPUs can potentially fine-tune a 100B model that would normally require 16+ GPUs with standard training.
For optimization researchers, distributed zeroth-order optimization in the LLM setting presents interesting convergence analysis challengesโparticularly around the interaction between model dimensionality, perturbation strategies, and distributed aggregation.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์ญ์ ํ ์์ด 100B+ ๋ชจ๋ธ ํ์ธํ๋ํ๊ธฐ: ๋ถ์ฐ ์ ๋ก์ฐจ(Zeroth-Order) ์ต์ ํ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ํ์ธํ๋์ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ ๋ชจ๋ธ ๊ฐ์ค์น ์์ฒด๋ณด๋ค ์ญ์ ํ ์ธํ๋ผ๊ฐ ์ง๋ฐฐ์ ์ด๋ค: ๊ทธ๋๋์ธํธ ํ
์, ์ตํฐ๋ง์ด์ ์ํ(Adam์ ํ๋ผ๋ฏธํฐ๋น ๋ ๊ฐ์ ๋ชจ๋ฉํ
ํ
์๋ฅผ ํ์๋ก ํ๋ค), ๊ทธ๋ฆฌ๊ณ ์ญ๋ฐฉํฅ ํจ์ค๋ฅผ ์ํด ์ ์ฅ๋๋ ํ์ฑํ ์ฒดํฌํฌ์ธํธ๊ฐ ๊ทธ ์์ธ์ด๋ค. ํผํฉ ์ ๋ฐ๋(mixed precision)๋ก 70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๊ตฌ์ฑํ ๊ฒฝ์ฐ, ๋ชจ๋ธ ๊ฐ์ค์น๋ง ์ฝ 140GB๋ฅผ ์ฐจ์งํ์ง๋ง ์ ์ฒด ํ์ต ์ํ๋ 500GB๋ฅผ ์ด๊ณผํ์ฌ, ํ์ต์ ์์ํ๊ธฐ ์ํด์๋ง๋ ์ ๊ตํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ(DeepSpeed ZeRO, FSDP)๋ฅผ ๊ฐ์ถ ๋ค์ค GPU ์ค์ ์ด ํ์ํ๋ค.
Wang et al.์ DistZO2๋ ๊ทผ๋ณธ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค: ์ญ์ ํ๋ฅผ ์์ ํ ์ ๊ฑฐํ๋ ๊ฒ์ด๋ค. ์ ๋ก์ฐจ(ZO) ์ต์ ํ๋ ๋ ๊ฐ์ง ์ฝ๊ฐ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ๊ตฌ์ฑ์์ ์์ค์ ํ๊ฐํจ์ผ๋ก์จ ๊ทธ๋๋์ธํธ๋ฅผ ์ถ์ ํ๋คโํ๋ผ๋ฏธํฐ ฮธ์์์ ์๋ฐฉํฅ ํจ์ค์ ํ๋ผ๋ฏธํฐ ฮธ + ฮตz์์์ ์๋ฐฉํฅ ํจ์ค(์ฌ๊ธฐ์ z๋ ๋ฌด์์ ์ญ๋ ๋ฒกํฐ์ด๋ค). ์์ค์ ์ฐจ์ด๋ฅผ ฮต์ผ๋ก ๋๋๋ฉด ๋ฐฉํฅ z๋ฅผ ๋ฐ๋ฅด๋ ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ์ด ์ ๊ณต๋๋ค.
์ด๋ฅผ ํตํด ํ์ฑํ ์ ์ฅ(์ญ๋ฐฉํฅ ํจ์ค ๋ถํ์), ์ตํฐ๋ง์ด์ ๋ชจ๋ฉํ
ํ
์(ZO๋ ๋ ๋จ์ํ ์
๋ฐ์ดํธ ๊ท์น ์ฌ์ฉ), ๊ทธ๋๋์ธํธ ํ
์๋ฅผ ์ ์ฅํ ํ์๊ฐ ์์ด์ง๋ค. ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋ชจ๋ธ ๊ฐ์ค์น์ ๋จ์ผ ์ญ๋ ๋ฒกํฐ ์ ๋๋ก ์ค์ด๋ค์ด, ํ์ค ํ์ต์ ์์ฉํ ์ ์๋ ํ๋์จ์ด์์๋ ๋ชจ๋ธ ํ์ธํ๋์ด ๊ฐ๋ฅํด์ง๋ค.
๋จ์ผ GPU์์ ๋ถ์ฐ ZO๋ก
๋จ์ผ GPU ์ ๋ก์ฐจ ์ต์ ํ๋ ์ ์๋ ค์ง ์ฝ์ ์ด ์๋ค: ๋์ ๊ทธ๋๋์ธํธ ๋ถ์ฐ์ด๋ค. ๊ฐ ์ญ๋ ๋ฐฉํฅ์ 1์ฐจ์ ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ๋ง ์ ๊ณตํ๋ฉฐ, ์ ์ฒด ๊ทธ๋๋์ธํธ๋ฅผ ๋ณต์ํ๋ ค๋ฉด ๋ง์ ์ญ๋ ๋ฐฉํฅ์ด ํ์ํ๋ค. ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๋จ์ผ GPU์์ ์ ์ฉํ ๊ทธ๋๋์ธํธ ์ถ์ ์ ํ์ํ ์ญ๋ ํ์๋ ๋นํ์ค์ ์ผ๋ก ๋ง๋ค.
DistZO2๋ ๋ถ์ฐ์ ํตํด ์ด๋ฅผ ํด๊ฒฐํ๋ค: ํด๋ฌ์คํฐ ๋ด ๊ฐ GPU๊ฐ ์๋ก ๋ค๋ฅธ ์ญ๋ ๋ฐฉํฅ์ ๋ฐ๋ผ ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ์ ๊ณ์ฐํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํ๋ค. N๊ฐ์ GPU๋ฅผ ์ฌ์ฉํ๋ฉด ๊ทธ๋๋์ธํธ ์ถ์ ์ด โN ๋ฐฐ ํฅ์๋์ด(ํ์ค ๋ชฌํ
์นด๋ฅผ๋ก ์๋ ด), ๋ถ์ฐ ZO ์ต์ ํ๊ฐ ๋จ์ผ GPU ๋ฒ์ ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ์ ํํด์ง๋ค.
๋ถ์ฐ ์กฐ์จ์ ๊ฒฝ๋ํ๋์ด ์๋ค: ๊ฐ GPU๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ๋ฌด์์ ์ญ๋ ๋ฐฉํฅ์ ์ํ๋งํ๊ณ , ๋ ๋ฒ์ ์๋ฐฉํฅ ํจ์ค๋ฅผ ๊ณ์ฐํ ํ, ์ค์นผ๋ผ ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ์ ๋ธ๋ก๋์บ์คํธํ๋ค. ํต์ ๋์ ํ์ค ๋ถ์ฐ ํ์ต์ ๊ทธ๋๋์ธํธ all-reduce ์ฐ์ฐ์ ๋นํด ๋ฌด์ํ ์ ์์ ์ ๋๋ก ์ ์ด, DistZO2๋ ๋ฉ๋ชจ๋ฆฌ ํจ์จ๋ฟ ์๋๋ผ ํต์ ํจ์จ๋ ๋๋ค.
์๋ ด ํน์ฑ
ZO ์ต์ ํ๋ 1์ฐจ(๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ) ์ต์ ํ๋ณด๋ค ๋ ๋๋ฆฌ๊ฒ ์๋ ดํ๋คโ์ด๊ฒ์ด ๊ทผ๋ณธ์ ์ธ ํธ๋ ์ด๋์คํ์ด๋ค. ๊ฐ ZO ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ์ ์ค์ ๊ทธ๋๋์ธํธ๋ณด๋ค ๋ ์ก์์ด ๋ง์, ๋์ผํ ์์ค ์์ค์ ๋๋ฌํ๊ธฐ ์ํด ๋ ๋ง์ ์
๋ฐ์ดํธ ์คํ
์ด ํ์ํ๋ค. ์๋ ด ์๋๋ ๋ชจ๋ธ ์ฐจ์์(๋ ํฐ ๋ชจ๋ธ์ ๋ ๋ง์ ์ญ๋์ด ํ์), ์ญ๋ ๊ท๋ชจ ฮต(์์ ฮต์ ๋ ์ ํํ์ง๋ง ๋ ์ก์์ด ๋ง์ ์ถ์ ๊ฐ์ ์ ๊ณต), ๊ทธ๋ฆฌ๊ณ ํ์ต๋ฅ ์ค์ผ์ค์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
์ค์ ๋ก ZO ์ต์ ํ๋ ๊ฐ ๊ทธ๋๋์ธํธ ์ถ์ ๊ฐ์ด ์ค์ ๊ทธ๋๋์ธํธ๋ณด๋ค ์ก์์ด ๋ง๊ธฐ ๋๋ฌธ์ ๋น์ทํ ํ์ง์ ๋๋ฌํ๊ธฐ ์ํด ํ์ค ํ์ธํ๋๋ณด๋ค ๋ ๋ง์ ์๋ฐฉํฅ ํจ์ค๊ฐ ํ์ํ๋ค. ๊ทธ๋ฌ๋ ๊ฐ ์๋ฐฉํฅ ํจ์ค๊ฐ ๋ ์ ๋ ดํ๋ฏ๋ก(์ญ๋ฐฉํฅ ํจ์ค ์์, ํ์ฑํ ์ ์ฅ ์์), ์ ์ฒด ์คํ ์๊ฐ์ ๊ฒฝ์๋ ฅ์ด ์์ ์ ์์ผ๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ๋๋ถ์ ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋์จ์ด์์ ํ์ค ํ์ต์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ์คํ๋ ๊ฐ๋ฅํด์ง๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ZO๋ ์ญ์ ํ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๋ฅผ ์ ๊ฑฐํ๋ค | ์ํ์ ์ฆ๋ช
; ํ์ฑํ ๋๋ ๊ทธ๋๋์ธํธ ํ
์ ๋ถํ์ | โ
์
์ฆ๋จ |
| ๋ถ์ฐ ZO๋ ๋จ์ผ GPU ๋๋น ๊ธฐ์ธ๊ธฐ ํ์ง์ ํฅ์์ํจ๋ค | N๊ฐ์ ๋
๋ฆฝ์ ์ธ ์ถ์ ์น๋ฅผ ์ง๊ณํ์ฌ โN๋งํผ ๊ฐ์ | โ
์ง์๋จ (ํ์ค ๊ฒฐ๊ณผ) |
| DistZO2๋ ํ์ค ํ์ต์ ๋นํด ๋๋ฌด ํฐ ๋ชจ๋ธ์ ํ์ธํ๋์ ๊ฐ๋ฅํ๊ฒ ํ๋ค | ์ ํ๋ GPU ๋ฉ๋ชจ๋ฆฌ์์ 1000์ต ๊ฐ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์์ ์ค์ฆ๋จ | โ
์ค์ฆ๋จ |
| ZO ํ์ธํ๋์ ํ์ค ํ์ธํ๋๊ณผ ๋๋ฑํ ํ์ง์ ๋ฌ์ฑํ๋ค | ํ์ง ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ฉฐ, ๊ธฐ์ธ๊ธฐ ๋
ธ์ด์ฆ๋ก ์ธํด ๋ ๋ง์ ๋ฐ๋ณต์ด ํ์ํจ | โ ๏ธ ๊ทผ์ ํ๋ ์ผ์นํ์ง๋ ์์ |
| ZO๋ ๋ชจ๋ ํ์ธํ๋ ์๋๋ฆฌ์ค์ ์ค์ฉ์ ์ด๋ค | ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ํ๊ฒฝ์์ ๊ฐ์ฅ ์ ์ตํ๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ถฉ๋ถํ ๊ฒฝ์ฐ ํ์ค ํ์ต์ด ์ ํธ๋จ | โ ๏ธ ์ํฉ์ ๋ฐ๋ผ ๋ค๋ฆ |
๋ฏธํด๊ฒฐ ์ง๋ฌธ
ํ์คํฌ๋ณ ํ์ง ๊ฒฉ์ฐจ: ZO์ ํ์ค ๋ฐฉ๋ฒ ๊ฐ์ ํ์ง ๊ฒฉ์ฐจ๋ ํ์คํฌ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๊ฐ? ๋จ์ํ ๋ถ๋ฅ ํ์คํฌ๋ฅผ ์ํ ํ์ธํ๋์ ZO ๋
ธ์ด์ฆ๋ฅผ ์ ํ์ฉํ ์ ์์ง๋ง, ๋ณต์กํ ์ถ๋ก ํ์คํฌ๋ฅผ ์ํ ํ์ธํ๋์ ๋ ํฐ ์ํฅ์ ๋ฐ์ ์ ์๋ค. ํ์คํฌ๋ณ ๋ถ์์ด ํ์ํ๋ค.LoRA์์ ๊ฒฐํฉ: ZO๋ฅผ ํ๋ผ๋ฏธํฐ ํจ์จ์ ํ์ธํ๋(LoRA, QLoRA)๊ณผ ๊ฒฐํฉํ์ฌ ์ถ๊ฐ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ์ ๋ฌ์ฑํ ์ ์๋๊ฐ? ์ด๋ฌํ ๊ฒฐํฉ์ ์ต์ ํ๋๋ ํ๋ผ๋ฏธํฐ์ ์๋ฅผ ๋์ฑ ์ค์ฌ ZO ์๋ ด์ ์ ์ฌ์ ์ผ๋ก ๊ฐ์ ํ ์ ์๋ค.์ ์ํ perturbation: ํ์ต ์ค์ perturbation ์ค์ผ์ผ ฮต์ ์ ์์ ์ผ๋ก ์กฐ์ ํด์ผ ํ๋๊ฐ? ํ์ต ์ด๊ธฐ์๋ ๋ ํฐ ฮต(๋น ๋ฅธ ํ์์ ์ํด), ํ๊ธฐ์๋ ๋ ์์ ฮต(์ธ๋ฐํ ์ต์ ํ๋ฅผ ์ํด)์ ์ฌ์ฉํ๋ฉด ์๋ ด์ ๊ฐ์ ํ ์ ์๋ค.ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ: ๋๋ถ๋ถ์ ํ๋ผ๋ฏธํฐ์๋ ZO๋ฅผ ์ฌ์ฉํ๊ณ , ์ผ๋ถ ํต์ฌ ํ๋ผ๋ฏธํฐ์ ์๊ท๋ชจ ๋ถ๋ถ์งํฉ์๋ 1์ฐจ ์ต์ ํ๋ฅผ ์ฌ์ฉํ ์ ์๋๊ฐ? ์ด๋ฌํ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ ZO์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ๊ณผ 1์ฐจ ๋ฐฉ๋ฒ์ ์๋ ด ์๋๋ฅผ ๊ฒฐํฉํ ์ ์๋ค.์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
GPU ์์์ด ์ ํ๋ ML ์ค๋ฌด์๋ค์๊ฒ DistZO2๋ ๊ธฐ์กด์๋ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ ๋ ๋ชจ๋ธ์ ํ์ธํ๋ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค๋ค. 4๊ฐ์ A100 GPU๋ฅผ ๋ณด์ ํ ์ฐ๊ตฌ์ค์ ํ์ค ํ์ต ๊ธฐ์ค์ผ๋ก 16๊ฐ ์ด์์ GPU๊ฐ ํ์ํ 1000์ต ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์ ์ฌ์ ์ผ๋ก ํ์ธํ๋ํ ์ ์๋ค.
์ต์ ํ ์ฐ๊ตฌ์๋ค์๊ฒ ์์ด, LLM ํ๊ฒฝ์์์ ๋ถ์ฐ ์์ฐจ ์ต์ ํ๋ ํฅ๋ฏธ๋ก์ด ์๋ ด ๋ถ์ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค. ํนํ ๋ชจ๋ธ ์ฐจ์์ฑ, perturbation ์ ๋ต, ๋ถ์ฐ ์ง๊ณ ๊ฐ์ ์ํธ์์ฉ์ด ์ค์ํ ์ฐ๊ตฌ ์ฃผ์ ์ด๋ค.
References (1)
[1] Wang, L., Xie, H., Wang, D. et al. (2025). DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing. arXiv:2507.03211.