契合数据中心的 RoCE

2023-08-01 13:55:38 809

介绍

  在数据不断增加的世界中,所有数据的快速传输对于有效使用信息至关重要。基于远程直接内存访问 (RDMA) 的互连为提高数据中心效率、降低整体复杂性和提高数据交付性能提供了理想的选择。RDMA 允许数据从存储传输到服务器,而无需通过 CPU 和 TCP/IP 以太网的主内存路径传递数据。获得更高的 CPU 和整体系统效率,因为存储和服务器的计算能力仅用于计算,而不是处理网络流量。RDMA 支持亚微秒级延迟和高达 56Gb/s 的带宽,转化为极快的应用程序性能、更好的存储和数据中心利用率以及简化的网络管理。不过,直到最近,RDMA 才仅在 InfiniBand 结构中可用。随着 RDMA over Converged Ethernet (RoCE) 的出现,RDMA 的优势现在也可用于基于以太网或混合协议结构的数据中心。


背景

  首先,这些传统协议要求在数据传输的发送端和接收端将数据写入内存缓冲区。 这从 CPU 的主要计算职责中夺走了宝贵的资源,并将它们专用于重复复制和读取内存缓冲区的输入/输出进程。此外,Sockets API 用作应用程序访问网络的接口,这需要双向通信。 在传输开始之前,必须发送一个发送请求,并且必须收到一个响应,确认并授予该请求的许可。 互连过程中的这一额外步骤会增加总传输时间并消耗远程设备上的计算资源。 另一方面,RDMA 旨在解决这些挑战。 通过在架构中构建操作系统旁路、零拷贝和 CPU 卸载,RDMA 的规划旨在实现高性能。

Sinoinfo_Pic

图 1. TCP/IP 通信


操作系统旁路使应用程序可以直接访问网卡,允许 CPU 直接与 I/O 适配器通信,绕过操作系统从用户空间过渡到内核的需要。使用 RDMA,不需要操作系统或驱动程序的参与,从而大大节省了互连事务的效率。

RDMA 还允许在不需要将数据复制到内存缓冲区的情况下进行通信。这种零拷贝传输使接收节点能够直接从发送节点的内存中读取数据,从而减少 CPU 参与产生的开销。

此外,与传统互连不同,RDMA 提供由硬件处理的传输协议栈。通过从软件卸载堆栈,CPU 参与更少,传输更可靠。

RDMA 通过操作系统旁路、零复制和 CPU 卸载显著减少 CPU 开销的总体效果是最大限度地提高效率,以提供闪电般的快速互连。

Sinoinfo_Pic

图 2. RDMA 通信


今天的数据中心要求底层互连以极低的延迟提供最大的带宽。无论市场如何,低延迟都已成为绝对必要。

例如,移动、游戏和视频点播使用低延迟来确保实时、一致的响应。在需要高性能计算的金融市场中,极低的延迟可能意味着数百万美元的差异。数据中心的横向扩展需要更高的性能,存储到服务器和服务器到存储的事务也是如此。同样,转向固态磁盘 (SSD) 存储也使延迟与存储市场相关。

虽然高带宽很重要,但没有低延迟带宽就不值钱了。使用 TCP/IP 可以通过网络传输大量数据,但只有 RDMA 可以产生低延迟,从而避免代价高昂的传输延迟。此外,RDMA 卸载减少了抖动,这意味着低响应时间更加一致。


为什么是 RoCE?

CIO 和应用程序编写者早就认识到 RDMA 的优势,因此提倡使用 InfiniBand 基础设施。 尽管如此,一些 IT 经理不愿意从他们现有的以太网数据中心迁移或学习新协议。

RDMA over Converged Ethernet (RoCE) 允许 RDMA 的所有优点,但在现有以太网网络上。 使用 RoCE,无需将数据中心从以太网转换为 InfiniBand,从而为公司节省大量资本支出。 使用 RDMA over InfiniBand 或 over Ethernet 之间的应用程序没有区别,因此 RoCE 很好地涵盖了更熟悉以太网环境的应用程序编写者。

基本上,RoCE 最终将 RDMA 技术引入基于以太网的数据中心,使此类数据中心能够从 RDMA 的低延迟中受益,而无需采用基于 InfiniBand 的网络基础设施。

Sinoinfo_Pic

    ROCE包格式


RoCEv2

最新版本的 RoCE 增加了更多功能。 通过更改数据包封装以包含 IP 和 UDP 标头,现在可以跨 L2 和 L3 网络使用 RDMA。 这将启用第 3 层路由,从而将 RDMA 引入具有多个子网的网络。 由于更新的版本,IP 多播现在也成为可能。

Sinoinfo_Pic

ROCE的实现

结论

在 RoCE 出现之前,有两种非常有限的选项可以解决数据中心性能不佳的问题。

然而,在性能和节省方面,RoCE 是一个很好的选择。 RoCE 支持在现有以太网基础设施上进行高效数据传输,提供 InfiniBand 的许多优势,而无需增加大量硬件或进行大规模转换。

借助 RoCE,终于可以在传统以太网数据中心体验最低的可用互连延迟。



微信公众号