广州博盛科技有限公司

OPN证书

合作伙伴

	Oracle携手AMD，实现大规模AI和Agentic工作负载性能突破
		发布时间 2025年06月24日

Oracle 和 AMD 宣布将在 Oracle Cloud Infrastructure (OCI) 上推出 AMD Instinct ™ MI355X GPU，为客户提供更多选择。与上一代相比，大规模 AI 训练和推理工作负载的性价比将提高超过两倍。Oracle 将推出由新的 AMD Instinct 处理器以及多达 131,072 个 MI355X GPU 提供支持的 Zettascale AI 集群，助力客户大规模构建、训练和推理 AI。

AMD Instinct MI355X 即将在 OCI 上推出

由 AMD Instinct MI355X 驱动的配置具有超高价值、云技术的灵活性和开源的兼容性，非常适合当今运行大语言模型和 AI 工作负载的客户。借助基于 OCI 的 AMD Instinct MI355X，客户将能够从以下方面受益：

● 性能显著提升：通过将吞吐量提高至 2.8 倍，帮助客户提高 AI 部署的性能。为了大规模实现 AI 创新，客户可以更快获得结果、降低延迟并掌握运行大型 AI 工作负载的能力。

● 更大、更快的内存：客户可以完全在内存中执行大模型，对于需要高内存带宽的模型，可提高推理和训练速度。新配置提供 288 GB 的高带宽内存 3 (HBM3) 和高达 8 TB/秒的内存带宽。

● 全新的 FP4 支持：支持新的 4 位浮点数 (FP4) 标准，让客户能够以经济高效的方式部署现代大语言模型和生成式 AI 模型。这有助于实现超高效和高速推理。

● 密集型液冷设计：客户可以实现每机架 125 千瓦的性能密度，满足严苛的 AI 工作负载需求。每个机架配备 64 个 GPU，支持 1400 瓦的热设计功耗，客户可以通过更高的吞吐量和更低的延迟来缩短训练时间。

● 专为生产规模的训练和推理而构建：支持客户部署新的 agentic 应用，以更短的首次令牌生成时间 (TTFT) 和每秒高令牌吞吐量。客户将在工作负载训练和推理方面实现更高的性价比。

● 强大的头节点：通过 AMD Turin 高频 CPU 和多达 3 TB 的系统内存，实现高效的作业编排和数据处理，帮助客户优化 GPU 性能。

● 开源堆栈：通过 AMD ROCm 支持客户利用灵活的架构，轻松迁移现有代码，无需被供应商锁定。AMD ROCm 是一个开放的软件栈，其中包含了开发基于 AMD GPU 的 AI 和 HPC 解决方案时常用的编程模型、工具、编译器、库以及运行时。

● 使用 AMD Pollara™ 进行网络创新：为客户提供高级 RoCE 功能，实现创新的网络结构设计。Oracle 将率先在后端网络上部署 AMD Pollara AI NIC，提供高级 RoCE 功能，例如 Ultra Ethernet Consortium (UEC) 的可编程拥塞控制和开放行业标准支持，以此实现高性能和低延迟网络。

　　　　　　　　　　　　　　内容载自：ORACLE网站