Trend AnalysisComputer SystemsMachine/Deep Learning
The Communication Wall: Why Scaling LLM Training Infrastructure Is Harder Than Adding More GPUs
Training a frontier large language model requires thousands of GPUs working in concert. The naive expectation is that doubling the GPUs should halve the training time.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Training a frontier large language model requires thousands of GPUs working in concert. The naive expectation is that doubling the GPUs should halve the training time. In practice, the relationship is far less favorable. As clusters scale from hundreds to thousands and then tens of thousands of accelerators, communication overheadโthe time spent synchronizing gradients, activating pipeline stages, and moving data between devicesโincreasingly dominates the training loop. Model FLOPS utilization (MFU), the fraction of theoretical compute actually used for useful work, routinely falls well below theoretical peak at scale. This communication wall, not compute capacity, is the binding constraint on LLM training infrastructure in 2025.
The Research Landscape
Quantifying the Communication Bottleneck
Fernandez et al. (2024) provide the most systematic analysis of hardware scaling trends and diminishing returns in distributed training. Their study across multiple GPU cluster configurations demonstrates that scaling efficiency drops sharply beyond certain cluster sizes: scaling from hundreds to thousands of GPUs yields sublinear speedup rather than the theoretical 4x. The culprit is collective communication operationsโAllReduce for data parallelism, point-to-point communication for pipeline parallelismโwhose cost grows with participant count while computation per device remains fixed.
Liang et al. (2024) provide a comprehensive survey of communication-efficient techniques for large-scale distributed deep learning. They categorize approaches into four families: gradient compression (reducing the data volume), communication scheduling (overlapping communication with computation), topology-aware algorithms (matching communication patterns to network structure), and decentralized protocols (eliminating central parameter servers). Their analysis suggests that no single technique is sufficient; practical systems combine multiple approaches.
Cai et al. (2026), published in Tsinghua Science and Technology, survey efficient inference for edge LLMs, examining how communication constraints at the edge mirror and differ from datacenter training. While the inference setting is different, the fundamental bottleneckโdata movement costs exceeding computation costsโis shared, suggesting that communication efficiency is a general challenge across the LLM lifecycle.
Architectural Solutions: Networks and Topologies
Meng et al. (2025) share operational experience from designing and deploying Astral, a datacenter infrastructure purpose-built for large-scale LLM training. their work provides rare insight into production infrastructure decisions. Key findings include: (a) network congestion from AllReduce operations is the primary cause of training interruptions, (b) rail-optimized topologies reduce cross-rack traffic but create bandwidth bottlenecks at top-of-rack switches, and (c) failure recovery dominates operational costโa single node failure in a 10,000-GPU training run can waste hours of work across all nodes.
Feng et al. (2025) propose RailX, a flexible network architecture for hyper-scale LLM training that addresses the cost and scalability limitations of tree-based topologies. Traditional rail-optimized networks scale poorly beyond a few thousand GPUs because the aggregation switches become bandwidth bottlenecks. RailX uses a hybrid direct-indirect topology that reduces the number of expensive high-radix switches while maintaining sufficient bisection bandwidth for collective operations.
TCCL by Kim et al. (2024) tackles a more specific but widely relevant problem: optimizing collective communication for PCIe-connected GPU clusters. While high-end training clusters use NVLink/NVSwitch, many organizations train on PCIe-based systems with substantially lower interconnect bandwidth. TCCL discovers better communication paths by profiling the actual PCIe topologyโincluding NUMA effects and shared switchesโrather than assuming an idealized fully-connected topology.
Software Approaches: Overlapping Communication and Computation
Wang et al. (2024) demonstrate that existing frameworks leave significant performance on the table by executing communication and computation sequentially. Their profiling reveals that collective communication occupies a substantial fraction of the training iteration time but that the GPU is often idle during communication phases. By co-executing micro-batchesโprocessing one micro-batch's computation while communicating another's gradientsโthey achieve meaningful training speedup without any hardware changes.
Wang et al. (2024) introduce Domino, which takes the overlap idea further by decomposing tensor operations into slices that can be communicated as soon as they are computed, rather than waiting for an entire layer's computation to complete. Domino demonstrates near-complete elimination of exposed communication time for data-parallel training, achieving MFU well above conventional levels on configurations where standard approaches achieve far lower.
Sun et al. (2024) present CO2, a system that achieves full communication-computation overlap through careful scheduling. Their approach is significant for geo-distributed settingsโtraining across data centers connected by wide-area networksโwhere communication latency is orders of magnitude higher than intra-datacenter networks. CO2 achieves competitive training throughput even when inter-datacenter bandwidth is 10-100x lower than intra-datacenter bandwidth.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Communication overhead causes MFU to fall well below peak at scale | Fernandez et al. , Wang et al. profiling data | Supported โ consistent finding across multiple studies |
| Micro-batch co-execution recovers substantial training throughput | Wang et al. co-execution study | Supported โ but gains are workload-dependent |
| Near-complete communication hiding is achievable | Domino โ MFU well above conventional levels | Supported for data parallelism โ pipeline parallelism is harder |
| Network topology is a primary design constraint | Meng et al. Astral , Feng et al. RailX | Supported โ production experience confirms this |
| PCIe clusters can match NVLink performance with software optimization | TCCL | Partially supported โ gap narrows but NVLink retains advantage |
| Geo-distributed training is viable | CO2 | Supported โ with appropriate overlap scheduling |
Open Questions and Future Directions
The failure recovery problem. Meng et al. identify failure recovery as the dominant operational cost. A single GPU failure in a 10,000-GPU run can waste hours of synchronized work. Checkpoint-based recovery helps but introduces its own overhead. Elastic trainingโwhere the system continues with fewer GPUsโremains an active research area.Heterogeneous clusters. Tang et al. (2025) explore training on hyper-heterogeneous clusters with chips from multiple vendors. As organizations piece together GPU allocations from different generations and manufacturers, heterogeneity-aware scheduling becomes essential but is poorly supported by current frameworks.Communication-computation co-design. Current approaches treat the network and the compute as separate systems to be optimized independently. Co-designing the network topology, collective algorithms, and parallelization strategy jointly could yield better solutions.Energy proportionality. At 10,000+ GPU scale, the energy consumed by network switches, memory, and cooling approaches the energy consumed by the GPUs themselves. Communication efficiency improvements that reduce total energy consumption may matter more than raw training speed.Optical interconnects. Current GPU clusters use electrical interconnects (NVLink, InfiniBand, Ethernet). Optical interconnects promise higher bandwidth at lower power but require new switch architectures and communication protocols. The transition timeline remains uncertain.What This Means for ML Engineers
For teams training large models, the practical takeaway is that infrastructure design choicesโnetwork topology, collective communication library, and parallelization strategyโmatter as much as the model architecture and training algorithm. Investing in communication profiling (tools like NCCL's built-in profiler, or frameworks like Domino's analysis pipeline) before scaling up can prevent expensive under-utilization. The era of "just add more GPUs" is over; communication-aware training design is now a core competency.
Explore related work through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
์ปค๋ฎค๋์ผ์ด์
์ฅ๋ฒฝ: LLM ํ๋ จ ์ธํ๋ผ ํ์ฅ์ด GPU ์ถ๊ฐ๋ณด๋ค ์ด๋ ค์ด ์ด์
ํ๋ก ํฐ์ด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ๋ จํ๋ ค๋ฉด ์์ฒ ๊ฐ์ GPU๊ฐ ํ๋ ฅํด์ผ ํ๋ค. ๋จ์ํ๊ฒ ์๊ฐํ๋ฉด GPU๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ฆฌ๋ฉด ํ๋ จ ์๊ฐ์ด ์ ๋ฐ์ผ๋ก ์ค์ด์ผ ํ๋ค. ์ค์ ๋ก๋ ์ด ๊ด๊ณ๊ฐ ํจ์ฌ ๋ถ๋ฆฌํ๋ค. ํด๋ฌ์คํฐ๊ฐ ์๋ฐฑ ๊ฐ์์ ์์ฒ ๊ฐ, ๊ทธ๋ฆฌ๊ณ ์๋ง ๊ฐ์ ๊ฐ์๊ธฐ๋ก ํ์ฅ๋จ์ ๋ฐ๋ผ, ๊ทธ๋๋์ธํธ ๋๊ธฐํ, ํ์ดํ๋ผ์ธ ์คํ
์ด์ง ํ์ฑํ, ์ฅ์น ๊ฐ ๋ฐ์ดํฐ ์ด๋์ ์์๋๋ ์๊ฐ์ธ ํต์ ์ค๋ฒํค๋๊ฐ ํ๋ จ ๋ฃจํ๋ฅผ ์ ์ ๋ ์ง๋ฐฐํ๊ฒ ๋๋ค. ์ด๋ก ์ ์ฐ์ฐ ๋ฅ๋ ฅ ์ค ์ค์ ๋ก ์ ์ฉํ ์์
์ ์ฌ์ฉ๋๋ ๋น์จ์ธ ๋ชจ๋ธ FLOPS ํ์ฉ๋ฅ (MFU)์ ๋๊ท๋ชจ ํ๊ฒฝ์์ ์ด๋ก ์ ์ต๊ณ ์น๋ฅผ ํฌ๊ฒ ๋ฐ๋๋ ๊ฒฝ์ฐ๊ฐ ํํ๋ค. 2025๋
LLM ํ๋ จ ์ธํ๋ผ์ ํต์ฌ ์ ์ฝ ์กฐ๊ฑด์ ์ฐ์ฐ ์ฉ๋์ด ์๋๋ผ ๋ฐ๋ก ์ด ์ปค๋ฎค๋์ผ์ด์
์ฅ๋ฒฝ์ด๋ค.
์ฐ๊ตฌ ๋ํฅ
ํต์ ๋ณ๋ชฉ ํ์์ ์ ๋ํ
Fernandez et al. (2024)์ ๋ถ์ฐ ํ๋ จ์์ ํ๋์จ์ด ํ์ฅ ์ถ์ธ์ ์ํ ์ฒด๊ฐ์ ๊ดํ ๊ฐ์ฅ ์ฒด๊ณ์ ์ธ ๋ถ์์ ์ ๊ณตํ๋ค. ์ฌ๋ฌ GPU ํด๋ฌ์คํฐ ๊ตฌ์ฑ์ ๊ฑธ์น ์ด๋ค์ ์ฐ๊ตฌ๋ ํน์ ํด๋ฌ์คํฐ ๊ท๋ชจ๋ฅผ ๋์ด์๋ฉด ํ์ฅ ํจ์จ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์๋ฐฑ ๊ฐ์์ ์์ฒ ๊ฐ์ GPU๋ก ํ์ฅํ๋ฉด ์ด๋ก ์ ์ธ 4๋ฐฐ๊ฐ ์๋ ์ค์ ํ(sublinear) ์๋ ํฅ์๋ง ๋ฌ์ฑ๋๋ค. ์์ธ์ ์งํฉ ํต์ ์ฐ์ฐ(collective communication operations)์ ์๋ค. ๋ฐ์ดํฐ ๋ณ๋ ฌ์ฑ์ ์ํ AllReduce์ ํ์ดํ๋ผ์ธ ๋ณ๋ ฌ์ฑ์ ์ํ ์ ๋์ (point-to-point) ํต์ ์ ๋น์ฉ์ ์ฐธ์ฌ์ ์์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ ๋ฐ๋ฉด, ์ฅ์น๋น ์ฐ์ฐ๋์ ๊ณ ์ ๋์ด ์๋ค.
Liang et al. (2024)์ ๋๊ท๋ชจ ๋ถ์ฐ ๋ฅ๋ฌ๋์ ์ํ ํต์ ํจ์จํ ๊ธฐ๋ฒ์ ๊ดํ ํฌ๊ด์ ์ธ ์๋ฒ ์ด๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ค์ ์ ๊ทผ ๋ฐฉ์์ ๋ค ๊ฐ์ง ๊ณ์ด๋ก ๋ถ๋ฅํ๋ค. ๋ฐ์ดํฐ ๋ณผ๋ฅจ์ ์ค์ด๋ ๊ทธ๋๋์ธํธ ์์ถ(gradient compression), ํต์ ๊ณผ ์ฐ์ฐ์ ๊ฒน์น๋ ํต์ ์ค์ผ์ค๋ง(communication scheduling), ํต์ ํจํด์ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋ง์ถ๋ ํ ํด๋ก์ง ์ธ์ ์๊ณ ๋ฆฌ์ฆ(topology-aware algorithms), ์ค์ ํ๋ผ๋ฏธํฐ ์๋ฒ๋ฅผ ์ ๊ฑฐํ๋ ํ์ค์ํ ํ๋กํ ์ฝ(decentralized protocols)์ด๋ค. ์ด๋ค์ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ๋จ์ผ ๊ธฐ๋ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์ผ๋ฉฐ, ์ค์ฉ์ ์ธ ์์คํ
์ ์ฌ๋ฌ ์ ๊ทผ ๋ฐฉ์์ ์กฐํฉํ๋ค.
Tsinghua Science and Technology์ ๊ฒ์ฌ๋ Cai et al. (2026)์ ์ฃ์ง LLM์ ํจ์จ์ ์ธ ์ถ๋ก ์ ์๋ฒ ์ดํ๋ฉฐ, ์ฃ์ง์์์ ํต์ ์ ์ฝ์ด ๋ฐ์ดํฐ์ผํฐ ํ๋ จ๊ณผ ์ด๋ป๊ฒ ์ ์ฌํ๊ณ ๋ค๋ฅธ์ง๋ฅผ ๊ฒํ ํ๋ค. ์ถ๋ก ํ๊ฒฝ์ ๋ค๋ฅด์ง๋ง, ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ ํ์โ๋ฐ์ดํฐ ์ด๋ ๋น์ฉ์ด ์ฐ์ฐ ๋น์ฉ์ ์ด๊ณผํ๋ ๊ฒโ์ ๊ณตํต์ ์ด๋ฉฐ, ์ด๋ ํต์ ํจ์จ์ด LLM ์์ ์ฃผ๊ธฐ ์ ๋ฐ์ ๊ฑธ์น ์ผ๋ฐ์ ์ธ ๊ณผ์ ์์ ์์ฌํ๋ค.
์ํคํ
์ฒ์ ํด๊ฒฐ์ฑ
: ๋คํธ์ํฌ์ ํ ํด๋ก์ง
Meng et al. (2025)์ ๋๊ท๋ชจ LLM ํ๋ จ์ ์ํด ํน๋ณํ ์ค๊ณ๋ ๋ฐ์ดํฐ์ผํฐ ์ธํ๋ผ์ธ Astral์ ์ค๊ณ ๋ฐ ๋ฐฐํฌ ์ด์ ๊ฒฝํ์ ๊ณต์ ํ๋ค. ์ด๋ค์ ์ฐ๊ตฌ๋ ํ๋ก๋์
์ธํ๋ผ ์์ฌ๊ฒฐ์ ์ ๋ํ ๋๋ฌธ ํต์ฐฐ์ ์ ๊ณตํ๋ค. ์ฃผ์ ๋ฐ๊ฒฌ์ผ๋ก๋ ๋ค์์ด ์๋ค. (a) AllReduce ์ฐ์ฐ์ผ๋ก ์ธํ ๋คํธ์ํฌ ํผ์ก์ด ํ๋ จ ์ค๋จ์ ์ฃผ๋ ์์ธ์ด๋ค. (b) ๋ ์ผ ์ต์ ํ(rail-optimized) ํ ํด๋ก์ง๋ ๋ ๊ฐ ํธ๋ํฝ์ ์ค์ด์ง๋ง ๋ ์๋จ(top-of-rack) ์ค์์น์์ ๋์ญํญ ๋ณ๋ชฉ์ ์ ๋ฐํ๋ค. (c) ์ฅ์ ๋ณต๊ตฌ๊ฐ ์ด์ ๋น์ฉ์ ์ง๋ฐฐํ๋ฉฐ, 10,000๊ฐ์ GPU๋ก ๊ตฌ์ฑ๋ ํ๋ จ ์คํ์์ ๋จ์ผ ๋
ธ๋ ์ฅ์ ๋ง์ผ๋ก๋ ๋ชจ๋ ๋
ธ๋์ ๊ฑธ์ณ ์ ์๊ฐ์ ์์
์ด ๋ญ๋น๋ ์ ์๋ค.
Feng et al. (2025)์ ํธ๋ฆฌ ๊ธฐ๋ฐ ํ ํด๋ก์ง์ ๋น์ฉ ๋ฐ ํ์ฅ์ฑ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ์ด๋๊ท๋ชจ LLM ํ๋ จ์ ์ํ ์ ์ฐํ ๋คํธ์ํฌ ์ํคํ
์ฒ์ธ RailX๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋ ์ผ ์ต์ ํ ๋คํธ์ํฌ๋ ์ง๊ณ ์ค์์น๊ฐ ๋์ญํญ ๋ณ๋ชฉ์ด ๋๊ธฐ ๋๋ฌธ์ ์์ฒ ๊ฐ์ GPU๋ฅผ ๋์ด์๋ฉด ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ค. RailX๋ ํ์ด๋ธ๋ฆฌ๋ ์ง์ -๊ฐ์ (direct-indirect) ํ ํด๋ก์ง๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ๊ฐ์ ๊ณ ๋ฐฉ์ฌํ(high-radix) ์ค์์น ์๋ฅผ ์ค์ด๋ฉด์๋ ์งํฉ ์ฐ์ฐ์ ์ถฉ๋ถํ ์ด๋ถ(bisection) ๋์ญํญ์ ์ ์งํ๋ค.
TCCL(Kim et al., 2024)์ ๋ณด๋ค ๊ตฌ์ฒด์ ์ด์ง๋ง ๊ด๋ฒ์ํ๊ฒ ๊ด๋ จ๋ ๋ฌธ์ , ์ฆ PCIe๋ก ์ฐ๊ฒฐ๋ GPU ํด๋ฌ์คํฐ์์์ ์งํฉ ํต์ (collective communication) ์ต์ ํ๋ฅผ ๋ค๋ฃฌ๋ค. ๊ณ ๊ธ ํ์ต ํด๋ฌ์คํฐ๋ NVLink/NVSwitch๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋ง์ ์กฐ์ง์ ์๋นํ ๋ฎ์ ์ธํฐ์ปค๋ฅํธ ๋์ญํญ์ ๊ฐ์ง PCIe ๊ธฐ๋ฐ ์์คํ
์์ ํ์ต์ ์ํํ๋ค. TCCL์ ์ด์ํ๋ ์์ ์ฐ๊ฒฐ ํ ํด๋ก์ง๋ฅผ ๊ฐ์ ํ๋ ๋์ , NUMA ํจ๊ณผ ๋ฐ ๊ณต์ ์ค์์น๋ฅผ ํฌํจํ ์ค์ PCIe ํ ํด๋ก์ง๋ฅผ ํ๋กํ์ผ๋งํ์ฌ ๋ ๋์ ํต์ ๊ฒฝ๋ก๋ฅผ ๋ฐ๊ฒฌํ๋ค.
์ํํธ์จ์ด ์ ๊ทผ๋ฒ: ํต์ ๊ณผ ์ฐ์ฐ์ ์ค์ฒฉ
Wang et al.(2024)์ ๊ธฐ์กด ํ๋ ์์ํฌ๊ฐ ํต์ ๊ณผ ์ฐ์ฐ์ ์์ฐจ์ ์ผ๋ก ์คํํจ์ผ๋ก์จ ์๋นํ ์ฑ๋ฅ ์ ์ฌ๋ ฅ์ ๋ญ๋นํ๊ณ ์์์ ์
์ฆํ๋ค. ์ด๋ค์ ํ๋กํ์ผ๋ง ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ์งํฉ ํต์ ์ ํ์ต ๋ฐ๋ณต ์๊ฐ์ ์๋นํ ๋น์จ์ ์ฐจ์งํ์ง๋ง, ํต์ ๋จ๊ณ์์ GPU๋ ์ข
์ข
์ ํด ์ํ์ ์๋ค. ๋ง์ดํฌ๋ก ๋ฐฐ์น๋ฅผ ๊ณต๋ ์คํํจ์ผ๋ก์จโํ๋์ ๋ง์ดํฌ๋ก ๋ฐฐ์น์ ์ฐ์ฐ์ ์ฒ๋ฆฌํ๋ ๋์ ๋ค๋ฅธ ๋ง์ดํฌ๋ก ๋ฐฐ์น์ ๊ทธ๋๋์ธํธ๋ฅผ ํต์ ํ๋ ๋ฐฉ์์ผ๋กโ์ด๋ค์ ์ด๋ ํ ํ๋์จ์ด ๋ณ๊ฒฝ ์์ด๋ ์๋ฏธ ์๋ ํ์ต ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค.
Wang et al.(2024)์ Domino๋ฅผ ์ ์ํ๋๋ฐ, ์ด๋ ์ ์ฒด ๋ ์ด์ด์ ์ฐ์ฐ์ด ์๋ฃ๋ ๋๊น์ง ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ํ
์ ์ฐ์ฐ์ ์ฌ๋ผ์ด์ค๋ก ๋ถํดํ์ฌ ์ฐ์ฐ์ด ์๋ฃ๋๋ ์ฆ์ ํต์ ํ ์ ์๋๋ก ํจ์ผ๋ก์จ ์ค์ฒฉ ์์ด๋์ด๋ฅผ ๋์ฑ ๋ฐ์ ์ํจ๋ค. Domino๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ํ์ต์์ ๋
ธ์ถ๋ ํต์ ์๊ฐ์ ๊ฑฐ์ ์์ ํ ์ ๊ฑฐํจ์ ์
์ฆํ๋ฉฐ, ํ์ค ์ ๊ทผ๋ฒ์ด ํจ์ฌ ๋ฎ์ ์์ค์ ๊ทธ์น๋ ๊ตฌ์ฑ์์ ์ผ๋ฐ์ ์ธ ์์ค์ ํจ์ฌ ์ํํ๋ MFU๋ฅผ ๋ฌ์ฑํ๋ค.
Sun et al.(2024)์ ์ธ์ฌํ ์ค์ผ์ค๋ง์ ํตํด ํต์ ๊ณผ ์ฐ์ฐ์ ์์ ํ ์ค์ฒฉ์ ๋ฌ์ฑํ๋ ์์คํ
์ธ CO2๋ฅผ ์ ์ํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ง๋ฆฌ์ ์ผ๋ก ๋ถ์ฐ๋ ํ๊ฒฝโ๊ด์ญ ๋คํธ์ํฌ๋ก ์ฐ๊ฒฐ๋ ๋ฐ์ดํฐ ์ผํฐ ๊ฐ์ ๊ฑธ์น ํ์ตโ์์ ํนํ ์ค์ํ๋ฐ, ์ด ํ๊ฒฝ์์ ํต์ ์ง์ฐ ์๊ฐ์ ๋ฐ์ดํฐ ์ผํฐ ๋ด๋ถ ๋คํธ์ํฌ๋ณด๋ค ๋ช ๋ฐฐ๋ ๋๋ค. CO2๋ ๋ฐ์ดํฐ ์ผํฐ ๊ฐ ๋์ญํญ์ด ๋ฐ์ดํฐ ์ผํฐ ๋ด๋ถ ๋์ญํญ๋ณด๋ค 10~100๋ฐฐ ๋ฎ์ ๊ฒฝ์ฐ์๋ ๊ฒฝ์๋ ฅ ์๋ ํ์ต ์ฒ๋ฆฌ๋์ ๋ฌ์ฑํ๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ์ฆ๊ฑฐ
<
| ์ฃผ์ฅ | ์ฆ๊ฑฐ | ํ์ |
|---|
| ํต์ ์ค๋ฒํค๋๋ก ์ธํด ๋๊ท๋ชจ์์ MFU๊ฐ ์ต๊ณ ์ฑ๋ฅ๋ณด๋ค ํจ์ฌ ๋ฎ์์ง๋ค | Fernandez et al., Wang et al. ํ๋กํ์ผ๋ง ๋ฐ์ดํฐ | ์ง์ง๋จ โ ๋ค์์ ์ฐ๊ตฌ์์ ์ผ๊ด๋ ๋ฐ๊ฒฌ |
| ๋ง์ดํฌ๋ก ๋ฐฐ์น ๊ณต๋ ์คํ์ด ์๋นํ ํ์ต ์ฒ๋ฆฌ๋์ ํ๋ณตํ๋ค | Wang et al. ๊ณต๋ ์คํ ์ฐ๊ตฌ | ์ง์ง๋จ โ ๋จ, ์ด๋์ ์ํฌ๋ก๋์ ๋ฐ๋ผ ๋ค๋ฆ |
| ํต์ ์ ๊ฑฐ์ ์์ ํ ์๋์ด ๊ฐ๋ฅํ๋ค | Domino โ ์ผ๋ฐ์ ์ธ ์์ค์ ํจ์ฌ ์ํํ๋ MFU | ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ์์๋ ์ง์ง๋จ โ ํ์ดํ๋ผ์ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ ๋ ์ด๋ ค์ |
| ๋คํธ์ํฌ ํ ํด๋ก์ง๊ฐ ์ฃผ์ ์ค๊ณ ์ ์ฝ ์กฐ๊ฑด์ด๋ค | Meng et al. Astral, Feng et al. RailX | ์ง์ง๋จ โ ์ค์ ์ด์ ๊ฒฝํ์ผ๋ก ํ์ธ |
| PCIe ํด๋ฌ์คํฐ๊ฐ ์ํํธ์จ์ด ์ต์ ํ๋ก NVLink ์ฑ๋ฅ์ ํ์ ํ ์ ์๋ค | TCCL | ๋ถ๋ถ์ ์ผ๋ก ์ง์ง๋จ โ ๊ฒฉ์ฐจ๋ ์ค์ด๋ค์ง๋ง NVLink๋ ์ฌ์ ํ ์ฐ์๋ฅผ ์ ์ง |
| ์ง๋ฆฌ์ ์ผ๋ก ๋ถ์ฐ๋ ํ์ต์ด ์คํ ๊ฐ๋ฅํ๋ค | CO2 | ์ง์ง๋จ โ ์ ์ ํ ์ค์ฒฉ ์ค์ผ์ค๋ง์ด ์๋ฐ๋ ๊ฒฝ์ฐ |
๋ฏธํด๊ฒฐ ๊ณผ์ ์ ํฅํ ๋ฐฉํฅ
์ฅ์ ๋ณต๊ตฌ ๋ฌธ์ . Meng et al.์ ์ฅ์ ๋ณต๊ตฌ๋ฅผ ์ฃผ์ ์ด์ ๋น์ฉ์ผ๋ก ์ง๋ชฉํ๋ค. 10,000๊ฐ GPU ํ์ต ์คํ์์ ๋จ์ผ GPU ์ฅ์ ๋ ๋๊ธฐํ๋ ์์
์ ์ ์๊ฐ์ ๋ญ๋นํ ์ ์๋ค. ์ฒดํฌํฌ์ธํธ ๊ธฐ๋ฐ ๋ณต๊ตฌ๋ ๋์์ด ๋์ง๋ง ๊ทธ ์์ฒด๋ก ์ค๋ฒํค๋๋ฅผ ๋ฐ์์ํจ๋ค. ํ๋ ฅ์ ํ์ต(elastic training)โ๋ ์ ์ ์์ GPU๋ก ์์คํ
์ด ๊ณ์ ์คํ๋๋ ๋ฐฉ์โ์ ์ฌ์ ํ ํ๋ฐํ ์ฐ๊ตฌ ๋ถ์ผ์ด๋ค.์ด๊ธฐ์ข
ํด๋ฌ์คํฐ. Tang et al.(2025)์ ์ฌ๋ฌ ๊ณต๊ธ์
์ฒด์ ์นฉ์ผ๋ก ๊ตฌ์ฑ๋ ์ด์ด๊ธฐ์ข
(hyper-heterogeneous) ํด๋ฌ์คํฐ์์์ ํ์ต์ ํ๊ตฌํ๋ค. ์กฐ์ง๋ค์ด ์๋ก ๋ค๋ฅธ ์ธ๋์ ์ ์กฐ์ฌ์ GPU ํ ๋น์ ์กฐํฉํจ์ ๋ฐ๋ผ, ์ด๊ธฐ์ข
์ธ์ ์ค์ผ์ค๋ง์ด ํ์์ ์ด ๋์์ง๋ง ํ์ฌ ํ๋ ์์ํฌ์์๋ ์ ๋๋ก ์ง์๋์ง ์๋๋ค.ํต์ -์ฐ์ฐ ๊ณต๋ ์ค๊ณ. ํ์ฌ์ ์ ๊ทผ๋ฒ์ ๋คํธ์ํฌ์ ์ฐ์ฐ์ ๋
๋ฆฝ์ ์ผ๋ก ์ต์ ํํด์ผ ํ ๋ณ๊ฐ์ ์์คํ
์ผ๋ก ์ทจ๊ธํ๋ค. ๋คํธ์ํฌ ํ ํด๋ก์ง, ์งํฉ ์๊ณ ๋ฆฌ์ฆ, ๋ณ๋ ฌํ ์ ๋ต์ ๊ณต๋์ผ๋ก ์ค๊ณํ๋ค๋ฉด ๋ ๋์ ํด๊ฒฐ์ฑ
์ ๋์ถํ ์ ์๋ค.
์๋์ง ๋น๋ก์ฑ. 10,000๊ฐ ์ด์์ GPU ๊ท๋ชจ์์๋ ๋คํธ์ํฌ ์ค์์น, ๋ฉ๋ชจ๋ฆฌ, ๋๊ฐ์ ์๋น๋๋ ์๋์ง๊ฐ GPU ์์ฒด์์ ์๋น๋๋ ์๋์ง์ ๊ทผ์ ํ๋ค. ์ด ์๋์ง ์๋น๋ฅผ ์ค์ด๋ ํต์ ํจ์จ ๊ฐ์ ์ ๋จ์ํ ํ๋ จ ์๋๋ณด๋ค ๋ ์ค์ํ ์ ์๋ค.๊ดํ์ ์ํธ ์ฐ๊ฒฐ. ํ์ฌ GPU ํด๋ฌ์คํฐ๋ ์ ๊ธฐ์ ์ํธ ์ฐ๊ฒฐ(NVLink, InfiniBand, Ethernet)์ ์ฌ์ฉํ๋ค. ๊ดํ์ ์ํธ ์ฐ๊ฒฐ์ ๋ ๋ฎ์ ์ ๋ ฅ์์ ๋ ๋์ ๋์ญํญ์ ์ ๊ณตํ ๊ฒ์ผ๋ก ๊ธฐ๋๋์ง๋ง, ์๋ก์ด ์ค์์น ์ํคํ
์ฒ์ ํต์ ํ๋กํ ์ฝ์ ํ์๋ก ํ๋ค. ์ ํ ์ผ์ ์ ์ฌ์ ํ ๋ถํ์คํ๋ค.ML ์์ง๋์ด์๊ฒ ์ฃผ๋ ์์ฌ์
๋๊ท๋ชจ ๋ชจ๋ธ์ ํ๋ จํ๋ ํ์๊ฒ ์ค์ง์ ์ธ ์์ฌ์ ์, ๋คํธ์ํฌ ํ ํด๋ก์ง, ์งํฉ ํต์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ๋ณ๋ ฌํ ์ ๋ต ๋ฑ์ ์ธํ๋ผ ์ค๊ณ ์ ํ์ด ๋ชจ๋ธ ์ํคํ
์ฒ์ ํ๋ จ ์๊ณ ๋ฆฌ์ฆ๋งํผ์ด๋ ์ค์ํ๋ค๋ ๊ฒ์ด๋ค. ๊ท๋ชจ๋ฅผ ํ์ฅํ๊ธฐ ์ ์ ํต์ ํ๋กํ์ผ๋ง(NCCL์ ๋ด์ฅ ํ๋กํ์ผ๋ฌ๋ Domino์ ๋ถ์ ํ์ดํ๋ผ์ธ๊ณผ ๊ฐ์ ํ๋ ์์ํฌ ๋ฑ์ ๋๊ตฌ)์ ํฌ์ํ๋ฉด, ๋น์ฉ์ด ๋ง์ด ๋๋ ์ ํ์ฉ ๋ฌธ์ ๋ฅผ ์๋ฐฉํ ์ ์๋ค. "GPU๋ฅผ ๋ ์ถ๊ฐํ๋ฉด ๋๋ค"๋ ์๋๋ ๋๋ฌ๋ค. ํต์ ์ ๊ณ ๋ คํ ํ๋ จ ์ค๊ณ๋ ์ด์ ํต์ฌ ์ญ๋์ด๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (9)
[1] Fernandez, J., Wehrstedt, L., & Shamis, L. (2024). Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training. arXiv preprint.
[2] Liang, F., Zhang, Z., & Lu, H. (2024). Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey. arXiv preprint.
[3] Cai, G., Tian, R., & Yang, L. (2026). Efficient Inference for Edge Large Language Models: A Survey. Tsinghua Science and Technology.
[4] Meng, Q., Zheng, H., & Zhang, Z. (2025). Astral: A Datacenter Infrastructure for Large Language Model Training at Scale. ACM EuroSys.
[5] Feng, Y., Chen, T., & Wei, Y. (2025). RailX: A Flexible, Scalable, and Low-Cost Network Architecture for Hyper-Scale LLM Training Systems. arXiv preprint.
[6] Kim, H., Ryu, J., & Lee, J. (2024). TCCL: Discovering Better Communication Paths for PCIe GPU Clusters. ASPLOS '24.
[7] Wang, G., Zhang, C., & Shen, Z. (2024). Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping. arXiv preprint.
[8] Sun, W., Qin, Z., & Sun, W. (2024). CO2: Efficient Distributed Training with Full Communication-Computation Overlap. arXiv preprint.
Li, Z., Xu, L., Huang, Z., Qian, S., Bu, H., Yang, M., et al. (2025). CTCCL: Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network. Proceedings of the 39th ACM International Conference on Supercomputing, 355-367.