UALink规范推出打响撼动英伟达AI统治的第一枪

(来源:UALink)

UALink 协议栈包括四个硬件优化层:物理层、数据链路层、事务层和协议层。物理层使用标准以太组件(例如 200GBASE-KR1/CR1),并包括使用 FEC 减少延迟的修改。数据链路层将来自事务层的 64 字节 fit 打包成 640 字节的单元,应用 CRC 和可选的重试逻辑。此层还处理设备间消息传递,并支持 UART 样式的固件通信。

事务层实现压缩寻址,在实际工作负载下以高达 95% 的协议效率简化数据传输。它还支持直接内存作,例如加速器之间的读取、写入和原子事务,从而保持本地和远程内存空间的顺序。

由于 UALink 协议针对现代数据中心,因此支持集成的安全和管理功能。例如,UALinkSec 为所有流量提供硬件级加密和身份验证,防止物理篡改,并通过租户控制的可信执行环境(如 AMD SEV、Arm CCA 和 Intel TDX)支持机密计算。该规范允许虚拟 Pod 分区,其中加速器组通过交换机级配置在单个 Pod 中隔离,以在共享基础设施上启用并发多租户工作负载。

UALink Pods 将通过专用控制软件和固件代理使用 PCIe 和以太等标准接口进行管理。通过 REST API、遥测、工作负载控制和故障隔离支持完全可管理性。

UALink 联盟主席 Peter Onufryk 表示:“随着 UALink 200G 1.0 规范的发布,UALink 联盟的成员公司正在积极构建一个用于纵向扩展加速器连接的开放生态系统。我们很高兴见证即将进入市场并支持未来 AI 应用的各种解决方案。

Nvidia 目前在 AI 加速器市场占据主导地位,这要归功于其强大的生态系统和纵向扩展解决方案。它目前正在发货 Blackwell NVL72 机架,这些机架使用 NVLink 在单个机架中连接多达 72 个 GPU,机架间 Pod 允许在单个 Pod 中连接多达 576 个 Blackwell B200 GPU。随着明年即将推出的 Vera Rubin 平台,Nvidia 打算在单个机架中扩展到 144 个 GPU,而 Rubin Ultra 将在 2027 年扩展到单个机架中高达 576 个 GPU。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender