DESIGN TOOLS
storage

NVMe-oF™网络中的以太网闪存束

Micron Technology | November 2020

NVMe-oF™网络中的以太网闪存束,用于大规模低成本存储

NVMe over Fabrics(又名NVMe- oftm)是一项新兴技术,可实现数据中心计算和存储的分解. 美光正在通过与Marvell等关键技术合作伙伴合作,帮助释放NVMe-oF的优势, Foxconn-Ingrasys and NVIDIA. 我们还在创新新技术,如异构内存存储引擎(HSE),这将有助于优化使用NVMe-oF的大规模闪存访问.

What is NVMe-oF?

NVMe- of实际上是在网络上扩展NVMe协议, 大大超出了目前限制ssd的服务器机箱的范围. 虽然NVMe自2011年以来一直存在,但织物延伸在2016年首次标准化. Because NVMe-oF leverages NVMe, 它继承了所有的优点:轻量级和高效的命令集, 多核感知和协议并行性. NVMe-oF是真正的网络无关的,因为它支持所有常见的结构, including Fibre Channel, InfiniBand and Ethernet. 图1比较了NVMe和NVMe- of模型,并突出显示了用户可用的各种网络和网络传输选项.

NVMe和NVMe- of模型的对比图 图1:NVMe和NVMe- of模型比较

有两个相关的以太网传输选项,RoCE v2和NVMe-TCP. 每一种都有其优点和缺点. RoCE v2延迟较低,但需要专用的rdma网卡(RNIC)。, 而NVMe-TCP传输具有更高的延迟和更高的CPU使用率,但不需要任何专门的rnic. Instead, it makes use of a standard NIC. RoCE v2目前在市场上更为流行.

NVMe相对于fabric有什么好处?

With just NVMe, 你基本上被限制在服务器机箱或机架上,使用PCIe交换机作为扩展的手段. 虽然这是一种非常有效的扩展存储的方法,但它的范围和范围是有限的. NVMe-oF允许在整个数据中心范围内连接几乎无限量的存储.

Today, NVMe-oF is well established, 许多用户采用将全闪存阵列(AFAs)连接到服务器的技术. However, NVMe-oF的全部好处只有在计算和存储完全分离时才能实现. That is, NVMe ssd池通过网络提供给服务器池,从而允许按需提供计算和存储. 分解增加了存储的可伸缩性和可共享性,并支持可组合性, as shown in Figure 2.

显示计算和存储分离的图形 图2:计算和存储的分解

分解存储的另一个维度是存储服务(即, data protection, replication, compression, and others). 存储服务可以由服务器管理(onload模型),也可以卸载到离实际存储较近的数据处理单元(dpu). Tradeoffs must be made. onload模型消耗额外的CPU周期和网络带宽,但将成本降至最低, 而卸载模式增加了成本和, depending on provisioning, can create bottlenecks. 由于TCO(总拥有成本)优势,对大规模低成本存储的追求导致了负载附加存储策略.

What are EBOFs, JBOFs and JBODs?

有两种方法将“一束闪存”连接到NVMe-oF网络:使用以太网一束闪存(EBOF)或使用一束闪存(JBOF). 不要混淆JBOF和JBOD(只是一堆磁盘). JBOD通常用于通过PCIe使用NVMe扩展机架中的存储. EBOF或JBOF可用于使用NVMe-oF跨数据中心扩展存储. As seen in Figure 3, JBOF使用PCIe交换机扇形输出到ssd硬盘, 而eof则使用以太网交换机扇形连接到ssd. JBOF和EBOF都使用NVMe-oF连接回服务器.

NVMe-of network comparing EBOF and JBOF 图3:NVMe-of网络比较EBOF和JBOF

这两种方法之间的主要区别,除了明显的以太网vs. PCIe交换,是NVMe到NVMe- of转换发生的地方. On the JBOF, 转换或桥接是在机箱的外围使用一个或多个dpu (x dpu到y ssd), x:y ratio). On the EBOF, 桥接在SSD载体或机箱内完成(x个桥接到x个SSD), 1:1 ratio). 而JBOF的优点是使用DPU的处理能力来运行存储服务, 它确实存在潜在的瓶颈,并且比EBOF模型需要额外的成本和功率. 当桥接与ssd的比例不是1:1时,成本权衡和瓶颈就会发挥作用.

我们正在用Marvell 88SN2400和Foxconn-Ingrasys EBOF测试我们的系统

通过与Marvell和富士康英格拉斯的合作, 我们一直在各种不同应用程序和工作负载下的NVMe- of环境中测试我们的美光7300主流NVMe固态硬盘.

Before looking at this testing, 让我们来看看富士康-英格瑞斯的EBOF和Marvell的88SN2400转换器控制器和Prestera®CX 8500开关.

Marvell的88SN2400是一款用于云和企业数据中心的NVMe-oF SSD转换器控制器. This, in combination with the Marvell switch, 本质上允许您在NVMe和NVMe- of之间转换或“桥接”. 88SN2400转换器控制器是富士康-英格莱斯eof和eof的关键部件, together with our Micron 7300 SSDs, 使一个令人印象深刻的高性能2U货架存储(最多73.1gb /s带宽,最高可达2000万IOPs). 图4显示了富士康-英格拉斯eof, 24 U.2 slots in a 2U enclosure.

Foxconn-Ingrasys EBOG Figure 4: Foxconn-Ingrasys EBOF

图5显示了采用Marvell 88SN2400转换器控制器的富士康-英格瑞固态硬盘载体.

富士康ingrasys与美光7300固态硬盘与Marvell 88SN2400转换器控制器 Figure 5: Foxconn-Ingrasys U.2 .载波带88SN2400转换器控制器

The Foxconn-Ingrasys U.2 carrier takes a standard U.2 SSD form factor. The U.2载波支持双以太网端口,满足需要路径冗余的应用, 它有一个单独的PCIe Gen3 x4驱动端,用于NVMe SSD.

Marvell的88SN2400转换器控制器支持RoCE v2和NVMe-TCP传输. 但是,对于我们的测试,我们主要关注RoCE v2.

如何使用NVIDIA™GPUDirect™Storage (GDS)扩展?

我们一直在使用NVIDIA™GPUDirect™Storage (GDS)在人工智能和机器学习工作负载中使用我们的ssd进行大量工作。. 我们希望通过将带有Marvell 88SN2400转换器控制器的foxconn - inggrasys EBOF连接到NVIDIA DGX™A100系统来了解织物环境中事物的扩展情况. 这是一个简单的gdsio (GPUDirect Storage I/O)工具测试,比较NVMe-oF环境中有GDS和没有GDS的带宽和延迟.

DGX™ A100 with EBOF Figure 6: DGX™ A100 with EBOF

In Figure 6, 我们有一个装载美光7300固态硬盘的eof,使用八个计算网络端口中的六个直接连接到NVIDIA DGX™A100, 提供600gb /s的可用网络带宽. GDS支持数据在对等体之间直接传输, 跳过在GDS未启用时使用的高延迟反弹缓冲区. In this test, 我们正在为工作负载提取ssd的全部功能(~61 GB/s). 未来的测试将添加一个以太网交换机,并进一步扩大ebof的数量.

You can 在FMS 2020的AI赛道上了解更多有关此测试的信息 via a presentation by Wes Vaske, principle storage solutions engineer, 题为“分析存储对人工智能工作负载的影响”.”

How can NVMe-oF create scale with an HSE?

在美光,我们一直在研究一些惊人的技术,其中之一就是 异构内存存储引擎. HSE是一种闪存感知存储引擎,可提高存储级内存(SCM)和ssd的性能. 它还通过减少写放大来增加SSD的有效寿命, 所有这些都被大规模部署. NVMe-oF是进一步扩大HSE规模的理想方法. 验证织物附着存储环境下HSE的有效性, 我们已经做了一些测试使用MongoDB与YCSB(雅虎)! Cloud Serving Benchmark). In Figure 7, 我们比较了默认内置MongoDB存储引擎(WiredTiger)使用本地美光7300 ssd和美光HSE在EBOF中使用美光7300 ssd的性能.

WiredTiger compared to HSE Figure 7: WiredTiger compared to HSE

与MongoDB中使用的带有本地SSD的传统WiredTiger存储引擎相比,HSE在fabric环境中的有效性是非常显著的. 我们可以实现每秒5倍的YCSB操作改进和42%的延迟减少,同时提高存储的可扩展性.

You can 在FMS 2020上了解更多有关此测试的信息 在Sujit Somandepalli的演讲中, principal storage solutions engineer, 标题为“在fabric上使用NVMe扩展存储”.”

What is the future of NVMe-oF?

NVMe-oF是一种使能技术,它最终将导致完全分解的数据中心,其中可以组合应用程序,然后以经济有效的方式动态地提供适当数量的计算和存储.

Today, 低成本桥接或基于dpu的平台用于连接和桥接NVMe ssd到eof或JBOF. 在未来,我们可能会看到本地NVMe-oF ssd进一步降低TCO并提高性能.

美光正在设计下一代数据中心ssd,其功能和特性针对NVMe-oF应用进行了优化.