Oracle
和
AMD
宣布将在
Oracle Cloud Infrastructure (OCI)
上推出
AMD Instinct ™ MI355X GPU,为客户提供更多选择。与上一代相比,大规模
AI
训练和推理工作负载的性价比将提高超过两倍。Oracle
将推出由新的
AMD Instinct
处理器以及多达
131,072
个
MI355X GPU
提供支持的
Zettascale AI
集群,助力客户大规模构建、训练和推理
AI。
AMD Instinct
MI355X
即将在
OCI
上推出
由
AMD Instinct MI355X
驱动的配置具有超高价值、云技术的灵活性和开源的兼容性,非常适合当今运行大语言模型和
AI
工作负载的客户。借助基于
OCI 的
AMD Instinct MI355X,客户将能够从以下方面受益:
●
性能显著提升:通过将吞吐量提高至
2.8
倍,帮助客户提高
AI
部署的性能。为了大规模实现
AI
创新,客户可以更快获得结果、降低延迟并掌握运行大型
AI
工作负载的能力。
●
更大、更快的内存:客户可以完全在内存中执行大模型,对于需要高内存带宽的模型,可提高推理和训练速度。新配置提供
288 GB
的高带宽内存
3 (HBM3)
和高达
8 TB/秒的内存带宽。
●
全新的
FP4
支持:支持新的
4
位浮点数 (FP4)
标准,让客户能够以经济高效的方式部署现代大语言模型和生成式
AI
模型。这有助于实现超高效和高速推理。
●
密集型液冷设计:客户可以实现每机架
125
千瓦的性能密度,满足严苛的
AI
工作负载需求。每个机架配备
64 个
GPU,支持
1400
瓦的热设计功耗,客户可以通过更高的吞吐量和更低的延迟来缩短训练时间。
●
专为生产规模的训练和推理而构建:支持客户部署新的
agentic
应用,以更短的首次令牌生成时间
(TTFT)
和每秒高令牌吞吐量。客户将在工作负载训练和推理方面实现更高的性价比。
●
强大的头节点:通过
AMD Turin
高频
CPU
和多达 3 TB
的系统内存,实现高效的作业编排和数据处理,帮助客户优化
GPU
性能。
●
开源堆栈:通过
AMD ROCm
支持客户利用灵活的架构,轻松迁移现有代码,无需被供应商锁定。AMD
ROCm
是一个开放的软件栈,其中包含了开发基于
AMD GPU
的
AI 和
HPC
解决方案时常用的编程模型、工具、编译器、库以及运行时。
●
使用
AMD Pollara™
进行网络创新:为客户提供高级
RoCE
功能,实现创新的网络结构设计。Oracle
将率先在后端网络上部署
AMD Pollara AI NIC,提供高级
RoCE
功能,例如
Ultra Ethernet Consortium (UEC)
的可编程拥塞控制和开放行业标准支持,以此实现高性能和低延迟网络。
内容载自:ORACLE网站
