NVMe-oF™网络中的以太网闪存束,用于大规模低成本存储
NVMe over Fabrics(又名NVMe- oftm)是一项新兴技术,可实现数据中心计算和存储的分解. 美光正在通过与Marvell等关键技术合作伙伴合作,帮助释放NVMe-oF的优势, Foxconn-Ingrasys and NVIDIA. 我们还在创新新技术,如异构内存存储引擎(HSE),这将有助于优化使用NVMe-oF的大规模闪存访问.
What is NVMe-oF?
NVMe- of实际上是在网络上扩展NVMe协议, 大大超出了目前限制ssd的服务器机箱的范围. 虽然NVMe自2011年以来一直存在,但织物延伸在2016年首次标准化. Because NVMe-oF leverages NVMe, 它继承了所有的优点:轻量级和高效的命令集, 多核感知和协议并行性. NVMe-oF是真正的网络无关的,因为它支持所有常见的结构, including Fibre Channel, InfiniBand and Ethernet. 图1比较了NVMe和NVMe- of模型,并突出显示了用户可用的各种网络和网络传输选项.
有两个相关的以太网传输选项,RoCE v2和NVMe-TCP. 每一种都有其优点和缺点. RoCE v2延迟较低,但需要专用的rdma网卡(RNIC)。, 而NVMe-TCP传输具有更高的延迟和更高的CPU使用率,但不需要任何专门的rnic. Instead, it makes use of a standard NIC. RoCE v2目前在市场上更为流行.
NVMe相对于fabric有什么好处?
With just NVMe, 你基本上被限制在服务器机箱或机架上,使用PCIe交换机作为扩展的手段. 虽然这是一种非常有效的扩展存储的方法,但它的范围和范围是有限的. NVMe-oF允许在整个数据中心范围内连接几乎无限量的存储.
Today, NVMe-oF is well established, 许多用户采用将全闪存阵列(AFAs)连接到服务器的技术. However, NVMe-oF的全部好处只有在计算和存储完全分离时才能实现. That is, NVMe ssd池通过网络提供给服务器池,从而允许按需提供计算和存储. 分解增加了存储的可伸缩性和可共享性,并支持可组合性, as shown in Figure 2.
分解存储的另一个维度是存储服务(即, data protection, replication, compression, and others). 存储服务可以由服务器管理(onload模型),也可以卸载到离实际存储较近的数据处理单元(dpu). Tradeoffs must be made. onload模型消耗额外的CPU周期和网络带宽,但将成本降至最低, 而卸载模式增加了成本和, depending on provisioning, can create bottlenecks. 由于TCO(总拥有成本)优势,对大规模低成本存储的追求导致了负载附加存储策略.
What are EBOFs, JBOFs and JBODs?
有两种方法将“一束闪存”连接到NVMe-oF网络:使用以太网一束闪存(EBOF)或使用一束闪存(JBOF). 不要混淆JBOF和JBOD(只是一堆磁盘). JBOD通常用于通过PCIe使用NVMe扩展机架中的存储. EBOF或JBOF可用于使用NVMe-oF跨数据中心扩展存储. As seen in Figure 3, JBOF使用PCIe交换机扇形输出到ssd硬盘, 而eof则使用以太网交换机扇形连接到ssd. JBOF和EBOF都使用NVMe-oF连接回服务器.
这两种方法之间的主要区别,除了明显的以太网vs. PCIe交换,是NVMe到NVMe- of转换发生的地方. On the JBOF, 转换或桥接是在机箱的外围使用一个或多个dpu (x dpu到y ssd), x:y ratio). On the EBOF, 桥接在SSD载体或机箱内完成(x个桥接到x个SSD), 1:1 ratio). 而JBOF的优点是使用DPU的处理能力来运行存储服务, 它确实存在潜在的瓶颈,并且比EBOF模型需要额外的成本和功率. 当桥接与ssd的比例不是1:1时,成本权衡和瓶颈就会发挥作用.
我们正在用Marvell 88SN2400和Foxconn-Ingrasys EBOF测试我们的系统
通过与Marvell和富士康英格拉斯的合作, 我们一直在各种不同应用程序和工作负载下的NVMe- of环境中测试我们的美光7300主流NVMe固态硬盘.
Before looking at this testing, 让我们来看看富士康-英格瑞斯的EBOF和Marvell的88SN2400转换器控制器和Prestera®CX 8500开关.
Marvell的88SN2400是一款用于云和企业数据中心的NVMe-oF SSD转换器控制器. This, in combination with the Marvell switch, 本质上允许您在NVMe和NVMe- of之间转换或“桥接”. 88SN2400转换器控制器是富士康-英格莱斯eof和eof的关键部件, together with our Micron 7300 SSDs, 使一个令人印象深刻的高性能2U货架存储(最多73.1gb /s带宽,最高可达2000万IOPs). 图4显示了富士康-英格拉斯eof, 24 U.2 slots in a 2U enclosure.
图5显示了采用Marvell 88SN2400转换器控制器的富士康-英格瑞固态硬盘载体.
The Foxconn-Ingrasys U.2 carrier takes a standard U.2 SSD form factor. The U.2载波支持双以太网端口,满足需要路径冗余的应用, 它有一个单独的PCIe Gen3 x4驱动端,用于NVMe SSD.
Marvell的88SN2400转换器控制器支持RoCE v2和NVMe-TCP传输. 但是,对于我们的测试,我们主要关注RoCE v2.
如何使用NVIDIA™GPUDirect™Storage (GDS)扩展?
我们一直在使用NVIDIA™GPUDirect™Storage (GDS)在人工智能和机器学习工作负载中使用我们的ssd进行大量工作。. 我们希望通过将带有Marvell 88SN2400转换器控制器的foxconn - inggrasys EBOF连接到NVIDIA DGX™A100系统来了解织物环境中事物的扩展情况. 这是一个简单的gdsio (GPUDirect Storage I/O)工具测试,比较NVMe-oF环境中有GDS和没有GDS的带宽和延迟.
In Figure 6, 我们有一个装载美光7300固态硬盘的eof,使用八个计算网络端口中的六个直接连接到NVIDIA DGX™A100, 提供600gb /s的可用网络带宽. GDS支持数据在对等体之间直接传输, 跳过在GDS未启用时使用的高延迟反弹缓冲区. In this test, 我们正在为工作负载提取ssd的全部功能(~61 GB/s). 未来的测试将添加一个以太网交换机,并进一步扩大ebof的数量.
You can 在FMS 2020的AI赛道上了解更多有关此测试的信息 via a presentation by Wes Vaske, principle storage solutions engineer, 题为“分析存储对人工智能工作负载的影响”.”
How can NVMe-oF create scale with an HSE?
在美光,我们一直在研究一些惊人的技术,其中之一就是 异构内存存储引擎. HSE是一种闪存感知存储引擎,可提高存储级内存(SCM)和ssd的性能. 它还通过减少写放大来增加SSD的有效寿命, 所有这些都被大规模部署. NVMe-oF是进一步扩大HSE规模的理想方法. 验证织物附着存储环境下HSE的有效性, 我们已经做了一些测试使用MongoDB与YCSB(雅虎)! Cloud Serving Benchmark). In Figure 7, 我们比较了默认内置MongoDB存储引擎(WiredTiger)使用本地美光7300 ssd和美光HSE在EBOF中使用美光7300 ssd的性能.
与MongoDB中使用的带有本地SSD的传统WiredTiger存储引擎相比,HSE在fabric环境中的有效性是非常显著的. 我们可以实现每秒5倍的YCSB操作改进和42%的延迟减少,同时提高存储的可扩展性.
You can 在FMS 2020上了解更多有关此测试的信息 在Sujit Somandepalli的演讲中, principal storage solutions engineer, 标题为“在fabric上使用NVMe扩展存储”.”
What is the future of NVMe-oF?
NVMe-oF是一种使能技术,它最终将导致完全分解的数据中心,其中可以组合应用程序,然后以经济有效的方式动态地提供适当数量的计算和存储.
Today, 低成本桥接或基于dpu的平台用于连接和桥接NVMe ssd到eof或JBOF. 在未来,我们可能会看到本地NVMe-oF ssd进一步降低TCO并提高性能.
美光正在设计下一代数据中心ssd,其功能和特性针对NVMe-oF应用进行了优化.