Deep DiveComputer Systems
Confidential Computing Goes GPU: Protecting AI Models and Data in Use
Confidential computing extends hardware-based trusted execution environments to GPU memory, enabling organizations to run AI training and inference on untrusted infrastructure without exposing models or data. With 75% of organizations reportedly adopting by 2025, the technology addresses a growing tension between cloud AI economics and data sovereignty.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Data security has traditionally focused on two states: data at rest (encrypted on disk) and data in transit (encrypted over networks). The third stateโdata in use, actively being processed in memoryโhas remained largely unprotected. This gap matters because computation requires data to be decrypted in memory, creating a window during which privileged software (hypervisors, operating systems, firmware) or physical attackers can access plaintext data.
Confidential computing closes this gap through hardware-based trusted execution environments (TEEs) that isolate code and data even from the infrastructure owner. CPU-based TEEsโIntel SGX, Intel TDX, AMD SEV-SNP, ARM CCAโhave matured over the past decade. But AI workloads run on GPUs, not CPUs, and extending confidential computing guarantees to GPU memory introduces a fundamentally different set of architectural challenges.
Why This Matters for AI
The tension is straightforward: AI training and inference increasingly happen on cloud infrastructure that the model owner does not control. This creates three simultaneous exposure risks:
Training data exposure. Organizations training models on sensitive data (medical records, financial transactions, legal documents) must trust the cloud provider's infrastructure, staff, and supply chain. A compromised hypervisor or a malicious insider can access training data in GPU memory.
Model exposure. Trained models represent substantial intellectual property. A model deployed for inference on third-party infrastructure can be extracted by an adversary with access to the host system's memory.
Inference data exposure. When users send queries to a cloud-hosted model, the input data (which may contain sensitive personal or business information) passes through the cloud provider's infrastructure in plaintext during processing.
Confidential computing addresses all three by ensuring that data remains encrypted in GPU memory and is only decrypted within a hardware-enforced enclave that the cloud provider cannot access.
The Architecture: From CPU Enclaves to GPU TEEs
CPU-based confidential computing works by creating isolated memory regions (enclaves) that are encrypted with keys held only by the hardware. Even the operating system and hypervisor cannot read enclave memory. Attestation protocols allow remote parties to verify that a specific enclave is running expected code on genuine hardware.
Extending this to GPUs requires solving several additional problems:
GPU memory isolation. GPU memory (HBM) operates differently from CPU memory. Data moves between CPU and GPU over PCIe or NVLink, and within the GPU across a complex memory hierarchy (registers, shared memory, L2 cache, HBM). Each of these transfer points must be protected.
Encrypted data transfer. The CPU-to-GPU link must be encrypted to prevent bus-snooping attacks. NVIDIA's confidential computing implementation uses a secure channel between the CPU TEE and a GPU-side security processor that manages encryption keys for GPU memory.
Attestation chain. Remote attestation must cover not just the CPU enclave but the GPU hardware, firmware, and driver stack. A compromised GPU driver could redirect computation or exfiltrate data, so the attestation chain must verify the integrity of the entire software stack from CPU through GPU.
Performance overhead. Encryption and isolation add computational overhead. For AI workloads where GPU utilization and memory bandwidth are critical, the performance cost of confidential computing determines practical viability.
Adoption Landscape
According to industry analysis (IDC, 2025), approximately 75% of organizations are reportedly adopting confidential computing technologies by 2025, and 45% are deploying them specifically in hybrid cloud environments. These figures reflect broad organizational interest, though the depth and maturity of adoption varies substantially.
Claims and Evidence
<
| Claim | Source | Verdict |
|---|
| Confidential computing extends hardware enclaves to GPU memory for AI workloads | arXiv 2511.04550 โ architectural description | Stated in abstract |
| Enables simultaneous protection of AI models and training data | arXiv 2511.04550 โ security model | Stated in abstract |
| 75% of organizations adopting confidential computing by 2025 | IDC, 2025 โ industry survey | Stated in source; survey methodology should be examined |
| 45% deploying in hybrid cloud environments | IDC, 2025 โ deployment survey | Stated in source; self-reported adoption figures |
Critical Analysis
Performance overhead remains the central question. AI workloads are performance-sensitiveโa 10% throughput reduction on a training run that costs $100,000 in compute translates directly to $10,000 in additional cost. Published benchmarks for GPU confidential computing show variable overhead depending on workload characteristics, but the abstract does not specify performance impact. Users need workload-specific benchmarks, not aggregate claims.
The trusted computing base is larger than it appears. Confidential computing reduces trust requirements but does not eliminate them. Users must trust the hardware manufacturer (NVIDIA, AMD), the firmware signing authority, and the attestation infrastructure. Side-channel attacks against TEEsโdemonstrated against Intel SGX in particularโremind us that hardware isolation is not absolute.
Supply chain integrity. If the hardware itself is compromised (e.g., through supply chain tampering), hardware-based security guarantees collapse. Confidential computing assumes genuine, unmodified hardwareโan assumption that is difficult to verify and increasingly relevant given geopolitical tensions around semiconductor supply chains.
Multi-tenant GPU sharing. Cloud economics favor multi-tenant GPU sharing (MIG, time-slicing). Confidential computing in multi-tenant GPU environments requires isolation between tenants at the hardware level, which adds complexity and may reduce the efficiency gains that multi-tenancy provides.
Adoption figures deserve scrutiny. The 75% adoption figure from IDC likely reflects stated plans or pilot deployments rather than production-scale implementation. The gap between organizational awareness of confidential computing and actual deployment of GPU-based TEEs for AI workloads is likely substantial.
Open Questions
What is the real-world performance overhead for large-scale training? Published microbenchmarks may not reflect the overhead patterns of actual training runs with mixed communication patterns, gradient aggregation, and checkpointing.How does confidential computing interact with distributed training? Multi-GPU and multi-node training requires communication between GPUs (NCCL, all-reduce). Encrypting inter-GPU communication while maintaining training throughput is a non-trivial challenge.Can confidential computing prevent model extraction via side channels? Even with memory encryption, timing side channels, power analysis, and electromagnetic emanation could leak information about model architecture or weights. Hardware TEEs protect against software attackers, not necessarily physical attackers.What regulatory frameworks recognize confidential computing? If healthcare or financial organizations adopt GPU TEEs to meet data protection requirements, regulators need to evaluate whether hardware-based isolation satisfies existing data protection standards (HIPAA, GDPR, PCI DSS).Will this enable new AI collaboration models? If multiple organizations can train jointly on combined data without any party accessing the other's data, confidential computing could enable privacy-preserving federated learning at the hardware levelโa stronger guarantee than algorithmic approaches alone.Closing Reflection
GPU-based confidential computing addresses a real and growing tension: organizations want the economic benefits of cloud-based AI training and inference but cannot accept the data exposure risks inherent in running workloads on infrastructure they do not control. The technology is architecturally soundโextending proven CPU TEE principles to GPU memoryโbut its practical value depends on performance overhead, which must be low enough that security does not become a luxury tax on AI computation.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
๊ธฐ๋ฐ ์ปดํจํ
์ GPU ํ์ฅ: ์ฌ์ฉ ์ค์ธ AI ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ ๋ณดํธ
๋ฐ์ดํฐ ๋ณด์์ ์ ํต์ ์ผ๋ก ๋ ๊ฐ์ง ์ํ์ ์ด์ ์ ๋ง์ถฐ ์๋ค: ์ ์ง ์ํ์ ๋ฐ์ดํฐ(๋์คํฌ์ ์ํธํ)์ ์ ์ก ์ค์ธ ๋ฐ์ดํฐ(๋คํธ์ํฌ๋ฅผ ํตํด ์ํธํ). ์ธ ๋ฒ์งธ ์ํ์ธ ์ฌ์ฉ ์ค ๋ฐ์ดํฐ, ์ฆ ๋ฉ๋ชจ๋ฆฌ์์ ํ๋ฐํ ์ฒ๋ฆฌ๋๋ ๋ฐ์ดํฐ๋ ๋์ฒด๋ก ๋ณดํธ๋ฐ์ง ๋ชปํ ์ํ๋ก ๋จ์ ์์๋ค. ์ฐ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์์ ๋ณตํธํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ด ๊ณต๋ฐฑ์ ์ค์ํ ๋ฌธ์ ์ด๋ค. ์ด๋ก ์ธํด ๊ถํ ์๋ ์ํํธ์จ์ด(ํ์ดํผ๋ฐ์ด์ , ์ด์ ์ฒด์ , ํ์จ์ด)๋ ๋ฌผ๋ฆฌ์ ๊ณต๊ฒฉ์๊ฐ ํ๋ฌธ ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์๋ ์ทจ์ฝํ ์๊ฐ๋๊ฐ ์๊ฒจ๋๋ค.
๊ธฐ๋ฐ ์ปดํจํ
(confidential computing)์ ์ธํ๋ผ ์์ ์๋ก๋ถํฐ๋ ์ฝ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ฒฉ๋ฆฌํ๋ ํ๋์จ์ด ๊ธฐ๋ฐ์ ์ ๋ขฐ ์คํ ํ๊ฒฝ(TEE, Trusted Execution Environment)์ ํตํด ์ด ๊ณต๋ฐฑ์ ํด์ํ๋ค. CPU ๊ธฐ๋ฐ TEE์ธ Intel SGX, Intel TDX, AMD SEV-SNP, ARM CCA๋ ์ง๋ 10๋
์ ๊ฑธ์ณ ์ฑ์ ๋จ๊ณ์ ์ด๋ฅด๋ ๋ค. ๊ทธ๋ฌ๋ AI ์ํฌ๋ก๋๋ CPU๊ฐ ์๋ GPU์์ ์คํ๋๋ฉฐ, GPU ๋ฉ๋ชจ๋ฆฌ๋ก ๊ธฐ๋ฐ ์ปดํจํ
์ ๋ณด์ฅ์ ํ์ฅํ๋ ๊ฒ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ํคํ
์ฒ์ ๊ณผ์ ๋ฅผ ์๋ฐํ๋ค.
AI์์ ์ด๊ฒ์ด ์ค์ํ ์ด์
ํต์ฌ์ ์ธ ๊ธด์ฅ ๊ด๊ณ๋ ๋ช
ํํ๋ค: AI ํ์ต๊ณผ ์ถ๋ก ์ด ๋ชจ๋ธ ์์ ์๊ฐ ์ง์ ํต์ ํ์ง ์๋ ํด๋ผ์ฐ๋ ์ธํ๋ผ์์ ์ ์ ๋ ๋ง์ด ์ด๋ฃจ์ด์ง๊ณ ์๋ค๋ ์ ์ด๋ค. ์ด๋ก ์ธํด ์ธ ๊ฐ์ง ๋
ธ์ถ ์ํ์ด ๋์์ ๋ฐ์ํ๋ค.
ํ์ต ๋ฐ์ดํฐ ๋
ธ์ถ. ๋ฏผ๊ฐํ ๋ฐ์ดํฐ(์๋ฃ ๊ธฐ๋ก, ๊ธ์ต ๊ฑฐ๋, ๋ฒ๋ฅ ๋ฌธ์)๋ก ๋ชจ๋ธ์ ํ์ตํ๋ ์กฐ์ง์ ํด๋ผ์ฐ๋ ์ ๊ณต์
์ฒด์ ์ธํ๋ผ, ์ง์ ๋ฐ ๊ณต๊ธ๋ง์ ์ ๋ขฐํด์ผ ํ๋ค. ์นจํด๋ ํ์ดํผ๋ฐ์ด์ ๋ ์
์์ ์ธ ๋ด๋ถ์๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์๋ค.
๋ชจ๋ธ ๋
ธ์ถ. ํ์ต๋ ๋ชจ๋ธ์ ์๋นํ ์ง์ ์ฌ์ฐ์ ๋ํ๋ธ๋ค. ์ 3์ ์ธํ๋ผ์์ ์ถ๋ก ์ฉ์ผ๋ก ๋ฐฐํฌ๋ ๋ชจ๋ธ์ ํธ์คํธ ์์คํ
์ ๋ฉ๋ชจ๋ฆฌ์ ์ ๊ทผํ ์ ์๋ ๊ณต๊ฒฉ์์ ์ํด ํ์ทจ๋ ์ ์๋ค.
์ถ๋ก ๋ฐ์ดํฐ ๋
ธ์ถ. ์ฌ์ฉ์๊ฐ ํด๋ผ์ฐ๋์ ํธ์คํ
๋ ๋ชจ๋ธ์ ์ฟผ๋ฆฌ๋ฅผ ์ ์กํ ๋, ์
๋ ฅ ๋ฐ์ดํฐ(๋ฏผ๊ฐํ ๊ฐ์ธ ์ ๋ณด๋ ๋น์ฆ๋์ค ์ ๋ณด๋ฅผ ํฌํจํ ์ ์๋)๋ ์ฒ๋ฆฌ ์ค์ ํด๋ผ์ฐ๋ ์ ๊ณต์
์ฒด์ ์ธํ๋ผ๋ฅผ ํ๋ฌธ ์ํ๋ก ํต๊ณผํ๋ค.
๊ธฐ๋ฐ ์ปดํจํ
์ ๋ฐ์ดํฐ๊ฐ GPU ๋ฉ๋ชจ๋ฆฌ์์ ์ํธํ๋ ์ํ๋ฅผ ์ ์งํ๊ณ , ํด๋ผ์ฐ๋ ์ ๊ณต์
์ฒด๊ฐ ์ ๊ทผํ ์ ์๋ ํ๋์จ์ด ๊ฐ์ ์ธํด๋ ์ด๋ธ(enclave) ๋ด์์๋ง ๋ณตํธํ๋๋๋ก ๋ณด์ฅํจ์ผ๋ก์จ ์ด ์ธ ๊ฐ์ง ๋ชจ๋๋ฅผ ํด๊ฒฐํ๋ค.
์ํคํ
์ฒ: CPU ์ธํด๋ ์ด๋ธ์์ GPU TEE๋ก
CPU ๊ธฐ๋ฐ ๊ธฐ๋ฐ ์ปดํจํ
์ ํ๋์จ์ด๋ง์ด ๋ณด์ ํ ํค๋ก ์ํธํ๋ ๊ฒฉ๋ฆฌ๋ ๋ฉ๋ชจ๋ฆฌ ์์ญ(์ธํด๋ ์ด๋ธ)์ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. ์ด์ ์ฒด์ ์ ํ์ดํผ๋ฐ์ด์ ์กฐ์ฐจ๋ ์ธํด๋ ์ด๋ธ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฝ์ ์ ์๋ค. ์๊ฒฉ ์ฆ๋ช
(attestation) ํ๋กํ ์ฝ์ ํตํด ์๊ฒฉ ๋น์ฌ์๋ ํน์ ์ธํด๋ ์ด๋ธ๊ฐ ์ ํ ํ๋์จ์ด์์ ์์๋ ์ฝ๋๋ฅผ ์คํํ๊ณ ์์์ ๊ฒ์ฆํ ์ ์๋ค.
์ด๋ฅผ GPU๋ก ํ์ฅํ๋ ค๋ฉด ๋ช ๊ฐ์ง ์ถ๊ฐ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ผ ํ๋ค.
GPU ๋ฉ๋ชจ๋ฆฌ ๊ฒฉ๋ฆฌ. GPU ๋ฉ๋ชจ๋ฆฌ(HBM)๋ CPU ๋ฉ๋ชจ๋ฆฌ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค. ๋ฐ์ดํฐ๋ PCIe ๋๋ NVLink๋ฅผ ํตํด CPU์ GPU ์ฌ์ด์์ ์ด๋ํ๋ฉฐ, GPU ๋ด๋ถ์์๋ ๋ณต์กํ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ(๋ ์ง์คํฐ, ๊ณต์ ๋ฉ๋ชจ๋ฆฌ, L2 ์บ์, HBM)๋ฅผ ๊ฐ๋ก์ง๋ฌ ์ด๋ํ๋ค. ์ด๋ฌํ ์ ์ก ์ง์ ๊ฐ๊ฐ์ด ๋ณดํธ๋์ด์ผ ํ๋ค.
์ํธํ๋ ๋ฐ์ดํฐ ์ ์ก. ๋ฒ์ค ์ค๋ํ(bus-snooping) ๊ณต๊ฒฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด CPU-GPU ๋งํฌ๋ฅผ ์ํธํํด์ผ ํ๋ค. NVIDIA์ ๊ธฐ๋ฐ ์ปดํจํ
๊ตฌํ์ CPU TEE์ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ํธํ ํค๋ฅผ ๊ด๋ฆฌํ๋ GPU ์ธก ๋ณด์ ํ๋ก์ธ์ ์ฌ์ด์ ๋ณด์ ์ฑ๋์ ์ฌ์ฉํ๋ค.
์ฆ๋ช
์ฒด์ธ. ์๊ฒฉ ์ฆ๋ช
์ CPU ์ธํด๋ ์ด๋ธ๋ฟ๋ง ์๋๋ผ GPU ํ๋์จ์ด, ํ์จ์ด, ๋๋ผ์ด๋ฒ ์คํ๊น์ง ํฌ๊ดํด์ผ ํ๋ค. ์นจํด๋ GPU ๋๋ผ์ด๋ฒ๋ ์ฐ์ฐ์ ์ฐํํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ถํ ์ ์์ผ๋ฏ๋ก, ์ฆ๋ช
์ฒด์ธ์ CPU๋ถํฐ GPU์ ์ด๋ฅด๋ ์ ์ฒด ์ํํธ์จ์ด ์คํ์ ๋ฌด๊ฒฐ์ฑ์ ๊ฒ์ฆํด์ผ ํ๋ค.
์ฑ๋ฅ ์ค๋ฒํค๋. ์ํธํ์ ๊ฒฉ๋ฆฌ๋ ์ฐ์ฐ ์ค๋ฒํค๋๋ฅผ ์ถ๊ฐํ๋ค. GPU ํ์ฉ๋ฅ ๊ณผ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ค์ํ AI ์ํฌ๋ก๋์์๋ ๊ธฐ๋ฐ ์ปดํจํ
์ ์ฑ๋ฅ ๋น์ฉ์ด ์ค์ง์ ์ธ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒฐ์ ํ๋ค.
๋์
ํํฉ
์
๊ณ ๋ถ์(IDC, 2025)์ ๋ฐ๋ฅด๋ฉด, 2025๋
๊น์ง ์ฝ 75%์ ์กฐ์ง์ด ๊ธฐ๋ฐ ์ปดํจํ
(confidential computing) ๊ธฐ์ ์ ๋์
ํ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋๋ฉฐ, 45%๋ ์ด๋ฅผ ํน๋ณํ ํ์ด๋ธ๋ฆฌ๋ ํด๋ผ์ฐ๋ ํ๊ฒฝ์ ๋ฐฐํฌํ๊ณ ์๋ค. ์ด๋ฌํ ์์น๋ ์กฐ์ง๋ค์ ํญ๋์ ๊ด์ฌ์ ๋ฐ์ํ์ง๋ง, ๋์
์ ๊น์ด์ ์ฑ์๋๋ ์๋นํ ๋ค์ํ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ์ถ์ฒ | ํ์ |
|---|
| ๊ธฐ๋ฐ ์ปดํจํ
์ AI ์ํฌ๋ก๋๋ฅผ ์ํด ํ๋์จ์ด ์ํด๋ ์ด๋ธ(enclave)๋ฅผ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ํ์ฅํ๋ค | arXiv 2511.04550 โ ์ํคํ
์ฒ ์ค๋ช
| ์ด๋ก์ ๋ช
์๋จ |
| AI ๋ชจ๋ธ๊ณผ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋์์ ๋ณดํธํ ์ ์๋ค | arXiv 2511.04550 โ ๋ณด์ ๋ชจ๋ธ | ์ด๋ก์ ๋ช
์๋จ |
| 2025๋
๊น์ง 75%์ ์กฐ์ง์ด ๊ธฐ๋ฐ ์ปดํจํ
๋์
| IDC, 2025 โ ์
๊ณ ์ค๋ฌธ์กฐ์ฌ | ์ถ์ฒ์ ๋ช
์๋จ; ์ค๋ฌธ ๋ฐฉ๋ฒ๋ก ๊ฒํ ํ์ |
| 45%๊ฐ ํ์ด๋ธ๋ฆฌ๋ ํด๋ผ์ฐ๋ ํ๊ฒฝ์ ๋ฐฐํฌ | IDC, 2025 โ ๋ฐฐํฌ ์ค๋ฌธ์กฐ์ฌ | ์ถ์ฒ์ ๋ช
์๋จ; ์๊ธฐ ๋ณด๊ณ ๋ฐฉ์์ ๋์
์์น |
๋นํ์ ๋ถ์
์ฑ๋ฅ ์ค๋ฒํค๋๋ ์ฌ์ ํ ํต์ฌ ์์ ์ด๋ค. AI ์ํฌ๋ก๋๋ ์ฑ๋ฅ์ ๋ฏผ๊ฐํ๋ค. ์ปดํจํ
๋น์ฉ์ผ๋ก $100,000์ด ์์๋๋ ํ๋ จ ์คํ์์ ์ฒ๋ฆฌ๋์ด 10% ๊ฐ์ํ๋ฉด ์ด๋ ๊ณง $10,000์ ์ถ๊ฐ ๋น์ฉ์ผ๋ก ์ง๊ฒฐ๋๋ค. GPU ๊ธฐ๋ฐ ์ปดํจํ
์ ๋ํด ๋ฐํ๋ ๋ฒค์น๋งํฌ๋ ์ํฌ๋ก๋ ํน์ฑ์ ๋ฐ๋ผ ์ค๋ฒํค๋๊ฐ ๋ค์ํ๊ฒ ๋ํ๋์ง๋ง, ํด๋น ์ด๋ก์๋ ์ฑ๋ฅ ์ํฅ์ด ๋ช
์๋์ด ์์ง ์๋ค. ์ฌ์ฉ์์๊ฒ๋ ์ง๊ณ๋ ์ฃผ์ฅ์ด ์๋๋ผ ์ํฌ๋ก๋๋ณ ๋ฒค์น๋งํฌ๊ฐ ํ์ํ๋ค.
์ ๋ขฐ ์ปดํจํ
๊ธฐ๋ฐ(trusted computing base)์ ๋ณด์ด๋ ๊ฒ๋ณด๋ค ๋ ๋๋ค. ๊ธฐ๋ฐ ์ปดํจํ
์ ์ ๋ขฐ ์๊ตฌ ์ฌํญ์ ์ค์ด์ง๋ง ์์ ํ ์ ๊ฑฐํ์ง๋ ๋ชปํ๋ค. ์ฌ์ฉ์๋ ํ๋์จ์ด ์ ์กฐ์
์ฒด(NVIDIA, AMD), ํ์จ์ด ์๋ช
๊ธฐ๊ด, ๊ทธ๋ฆฌ๊ณ ์๊ฒฉ ์ฆ๋ช
(attestation) ์ธํ๋ผ๋ฅผ ์ ๋ขฐํด์ผ ํ๋ค. ํนํ Intel SGX๋ฅผ ๋์์ผ๋ก ์ค์ฆ๋ TEE์ ๋ํ ์ฌ์ด๋ ์ฑ๋(side-channel) ๊ณต๊ฒฉ์ ํ๋์จ์ด ๊ฒฉ๋ฆฌ๊ฐ ์ ๋์ ์ด์ง ์์์ ์๊ธฐ์์ผ ์ค๋ค.
๊ณต๊ธ๋ง ๋ฌด๊ฒฐ์ฑ. ํ๋์จ์ด ์์ฒด๊ฐ (์: ๊ณต๊ธ๋ง ๋ณ์กฐ๋ฅผ ํตํด) ์นจํด๋ ๊ฒฝ์ฐ, ํ๋์จ์ด ๊ธฐ๋ฐ ๋ณด์ ๋ณด์ฅ์ ๋ถ๊ดด๋๋ค. ๊ธฐ๋ฐ ์ปดํจํ
์ ์ง๋ณธ์ด๋ฉฐ ์์ ๋์ง ์์ ํ๋์จ์ด๋ฅผ ์ ์ ๋ก ํ๋๋ฐ, ์ด๋ ๊ฒ์ฆํ๊ธฐ ์ด๋ ค์ด ๊ฐ์ ์ด๋ฉฐ ๋ฐ๋์ฒด ๊ณต๊ธ๋ง์ ๋๋ฌ์ผ ์ง์ ํ์ ๊ธด์ฅ์ด ๊ณ ์กฐ๋๋ ํ ์์ ์์ ์ ์ ๋ ์ค์ํด์ง๊ณ ์๋ค.
๋ฉํฐ ํ
๋ํธ(multi-tenant) GPU ๊ณต์ . ํด๋ผ์ฐ๋ ๊ฒฝ์ ํ์ ๋ฉํฐ ํ
๋ํธ GPU ๊ณต์ (MIG, ํ์ ์ฌ๋ผ์ด์ฑ)๋ฅผ ์ ํธํ๋ค. ๋ฉํฐ ํ
๋ํธ GPU ํ๊ฒฝ์์์ ๊ธฐ๋ฐ ์ปดํจํ
์ ํ๋์จ์ด ์์ค์์ ํ
๋ํธ ๊ฐ ๊ฒฉ๋ฆฌ๋ฅผ ํ์๋ก ํ๋ฉฐ, ์ด๋ ๋ณต์ก์ฑ์ ์ฆ๊ฐ์ํค๊ณ ๋ฉํฐ ํ
๋์๊ฐ ์ ๊ณตํ๋ ํจ์จ์ฑ ์ด์ ์ ๊ฐ์์ํฌ ์ ์๋ค.
๋์
์์น๋ ๋ฉด๋ฐํ ๊ฒํ ๊ฐ ํ์ํ๋ค. IDC์ 75% ๋์
์์น๋ ํ๋ก๋์
๊ท๋ชจ์ ๊ตฌํ๋ณด๋ค๋ ๊ณํ ํ๋ช
์ด๋ ํ์ผ๋ฟ ๋ฐฐํฌ๋ฅผ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ธฐ๋ฐ ์ปดํจํ
์ ๋ํ ์กฐ์ง์ ์ธ์๊ณผ AI ์ํฌ๋ก๋๋ฅผ ์ํ GPU ๊ธฐ๋ฐ TEE์ ์ค์ ๋ฐฐํฌ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ ์๋นํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๋ฏธํด๊ฒฐ ์ง๋ฌธ๋ค
๋๊ท๋ชจ ํ๋ จ์์ ์ค์ ์ฑ๋ฅ ์ค๋ฒํค๋๋ ์ผ๋ง์ธ๊ฐ? ๋ฐํ๋ ๋ง์ดํฌ๋ก๋ฒค์น๋งํฌ๋ ํผํฉ ํต์ ํจํด, ๊ทธ๋๋์ธํธ ์ง๊ณ(gradient aggregation), ์ฒดํฌํฌ์ธํ
์ ํฌํจํ๋ ์ค์ ํ๋ จ ์คํ์ ์ค๋ฒํค๋ ํจํด์ ๋ฐ์ํ์ง ๋ชปํ ์ ์๋ค.๊ธฐ๋ฐ ์ปดํจํ
์ ๋ถ์ฐ ํ๋ จ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋๊ฐ? ๋ฉํฐ GPU ๋ฐ ๋ฉํฐ ๋
ธ๋ ํ๋ จ์ GPU ๊ฐ ํต์ (NCCL, all-reduce)์ ํ์๋ก ํ๋ค. ํ๋ จ ์ฒ๋ฆฌ๋์ ์ ์งํ๋ฉด์ GPU ๊ฐ ํต์ ์ ์ํธํํ๋ ๊ฒ์ ๊ฐ๋จ์น ์์ ๊ณผ์ ์ด๋ค.๊ธฐ๋ฐ ์ปดํจํ
์ ์ฌ์ด๋ ์ฑ๋์ ํตํ ๋ชจ๋ธ ์ถ์ถ์ ๋ฐฉ์งํ ์ ์๋๊ฐ? ๋ฉ๋ชจ๋ฆฌ ์ํธํ๊ฐ ์ด๋ฃจ์ด์ง๋๋ผ๋ ํ์ด๋ฐ ์ฌ์ด๋ ์ฑ๋, ์ ๋ ฅ ๋ถ์, ์ ์๊ธฐ ๋ฐฉ์ถ์ ๋ชจ๋ธ ์ํคํ
์ฒ๋ ๊ฐ์ค์น์ ๊ดํ ์ ๋ณด๋ฅผ ์ ์ถํ ์ ์๋ค. ํ๋์จ์ด TEE๋ ์ํํธ์จ์ด ๊ณต๊ฒฉ์๋ก๋ถํฐ๋ ๋ณดํธํ์ง๋ง, ๋ฌผ๋ฆฌ์ ๊ณต๊ฒฉ์๋ก๋ถํฐ๋ ๋ฐ๋์ ๊ทธ๋ ์ง ์์ ์ ์๋ค.๊ธฐ๋ฐ ์ปดํจํ
์ ์ธ์ ํ๋ ๊ท์ ์ฒด๊ณ๋ ๋ฌด์์ธ๊ฐ? ์๋ฃ ๋๋ ๊ธ์ต ์กฐ์ง์ด ๋ฐ์ดํฐ ๋ณดํธ ์๊ฑด์ ์ถฉ์กฑํ๊ธฐ ์ํด GPU TEE๋ฅผ ๋์
ํ๋ ๊ฒฝ์ฐ, ๊ท์ ๋น๊ตญ์ ํ๋์จ์ด ๊ธฐ๋ฐ ๊ฒฉ๋ฆฌ๊ฐ ๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ณดํธ ํ์ค(HIPAA, GDPR, PCI DSS)์ ์ถฉ์กฑํ๋์ง ํ๊ฐํด์ผ ํ๋ค.
์ด๊ฒ์ด ์๋ก์ด AI ํ์
๋ชจ๋ธ์ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ธ๊ฐ? ์ฌ๋ฌ ์กฐ์ง์ด ์๋ก์ ๋ฐ์ดํฐ์ ์ ๊ทผํ์ง ์๊ณ ๊ฒฐํฉ๋ ๋ฐ์ดํฐ๋ก ๊ณต๋ ํ์ตํ ์ ์๋ค๋ฉด, ๊ธฐ๋ฐ ์ปดํจํ
์ ํ๋์จ์ด ์์ค์์ ํ๋ผ์ด๋ฒ์ ๋ณด์กด ์ฐํฉ ํ์ต(federated learning)์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์์ผ๋ฉฐ, ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ทผ ๋ฐฉ์๋ง์ผ๋ก๋ ์ป์ ์ ์๋ ๋ ๊ฐ๋ ฅํ ๋ณด์ฅ์ ์ ๊ณตํ๋ค.๋ง๋ฌด๋ฆฌ ์ฑ์ฐฐ
GPU ๊ธฐ๋ฐ ๊ธฐ๋ฐ ์ปดํจํ
์ ์ค์ฌํ๋ฉฐ ์ ์ ์ปค์ง๋ ๊ธด์ฅ์ ํด์ํ๋ค. ์กฐ์ง๋ค์ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ AI ํ์ต ๋ฐ ์ถ๋ก ์ ๊ฒฝ์ ์ ์ด์ ์ ์ํ์ง๋ง, ์์ ๋ค์ด ํต์ ํ์ง ์๋ ์ธํ๋ผ์์ ์ํฌ๋ก๋๋ฅผ ์คํํ๋ ๋ฐ ๋ด์ฌ๋ ๋ฐ์ดํฐ ๋
ธ์ถ ์ํ์ ๋ฐ์๋ค์ผ ์ ์๋ค. ์ด ๊ธฐ์ ์ ์ํคํ
์ฒ์ ์ผ๋ก ๊ฑด์ ํ๋ค. ์ฆ, ๊ฒ์ฆ๋ CPU TEE ์์น์ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ํ์ฅํ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๊ทธ ์ค์ง์ ์ธ ๊ฐ์น๋ ์ฑ๋ฅ ์ค๋ฒํค๋์ ๋ฌ๋ ค ์์ผ๋ฉฐ, ๋ณด์์ด AI ์ฐ์ฐ์ ๋ํ ์ฌ์น์ธ๊ฐ ๋์ง ์์ ๋งํผ ์ค๋ฒํค๋๊ฐ ์ถฉ๋ถํ ๋ฎ์์ผ ํ๋ค.