设计工具
公司

基于TCP的NVMe™概念验证

瑞安·梅雷迪思| 2020年3月

概念验证:使用美光9300的Lightbits实验室™Apache Cassandra®性能

今天的数据中心正在快速整合其高性能固态驱动器(ssd), 可伸缩的, 以及功耗 NVMe™协议. 当容量需求需要一个ssd池时, NVMe Over fabric (NVMe- of™)的引入是为了解决分解存储的问题,通过支持机架规模的NVMe ssd远程池,可以灵活地将容量分配给特定的应用程序. 接下来的挑战是如何通过将性能扩展到单个服务器和整个数据中心来最大化NVMe的性能和投资.

作为一个贡献者 NVMe标准, 美光研究并分享了我们在软件定义存储领域的经验, 特别是在分解存储解决方案中. 部署早期NVMe-oF实现的最大挑战之一是RDMA(远程直接内存访问)结构的管理和配置.

我领导着美光奥斯汀解决方案实验室的工程团队, 我的团队在哪里可以尝试来自行业领导者的新技术. 我们最近测试了NVMe- of的一个新协议,称为NVMe over TCP (NVMe/TCP)解决方案 Lightbits实验室™,从而避免了RDMA的复杂性

这对美光来说很有趣,因为在交换机上启用RDMA并不是一件简单的事情, 这种情况使网络管理变得复杂. 使用标准TCP进行NVMe传输意味着交换机上不需要特殊的功能或设置,并且解决方案更容易部署和使用, 如图1所示. 这种简化的代价是TCP协议栈与RDMA协议(使用本地以太网)带来的额外延迟。.

任何联网解决方案的成功都取决于它与使用驻留在应用服务器中的本地存储的类似配置相比如何. 我们这个测试的目标是确定Lightbits LightOS NVMe/TCP解决方案给云工作负载和本地NVMe设备带来了什么开销(如果有的话).

用于NVMe传输的TCP协议栈的图形说明

看看NVMe/TCP的Lightbits

Lightbits存储解决方案是其LightOS®高级存储软件和Lightfield™存储加速PCIe外接卡的组合, 负责压缩, 卸载后端操作和管理全局flash翻译层, 或者“全球超光速”,安装在来自各种oem的标准x86服务器上.

Lightbits存储解决方案由一组或多个节点组成,这些节点托管用于数据存储的NVMe ssd,以及高级内存和可选的用于缓存的非易失性双列内存模块(nvdimm). 这是很多美光的硬件! 我们的目标是测试Lightbits如何充分利用微米的优点.

本地直接连接的PCIe存储通常比网络存储快, 但是协议对延迟的影响有多大呢? 对于这个测试, 我们比较了使用本地NVMe驱动器的普通应用程序与使用来自Lightbits LightOS存储服务器的TCP提供的卷的相同应用程序的行为. 在本例中,我们使用Yahoo测试了Apache®Cassandra®的性能和延迟!®云服务基准(YCSB).

我们的测试配置的细节

我们的概念验证测试使用了两种测试配置. 配置1 包括四个独立的Cassandra服务器,使用Lightbits LightOS的远程存储.

LightOS将每个服务器的CPU复合体组织为单独的“存储节点”.双插槽服务器可以在每个CPU复合体上承载一个存储节点. 我们将一个存储节点分配给CPU插槽0进行测试.

存储节点承载8个高性能节点 微米 9300.84TB NVMe ssd. 我们创造了4个4.从Lightbits存储节点中获取9TB的逻辑卷,并将一个卷分配给每个Cassandra数据库服务器,如图2所示.

图解Cassandra测试配置使用LightBits LightOS存储服务器

四个负载生成服务器, 使用50Gb以太网适配器连接到网络, 运行YCSB工作负载A.

配置2 包括四个带有本地NVMe的独立Cassandra服务器. 每个Cassandra服务器托管两个微米 93003.84TB NVMe ssd,用于本地存储数据,并连接100Gb以太网. 四台负载生成服务器使用50GbE连接到网络,运行YCSB工作负载A.

下面的图3说明了测试配置.

使用本地NVMe的Cassandra测试配置的图形说明

对于两个测试配置, 显示的OPS (operations per second)结果是4台Cassandra服务器的总和. 所有记录的延迟测量值都是四个Cassandra服务器的平均值.

两个测试中使用的所有服务器配置如下:

Cassandra数据库服务器(4台)

  • 两个英特尔至强白金8168(24核@ 2).7 ghz)
  • 384 gb内存
  • 100Gbps Mellanox ConnectX-4
  • Datastax Cassandra v3.0.9
  • 两个3.84TB 微米 9300 Max NVMe硬盘
    • 配置为lvm条带卷用于本地存储测试
      仅用于直连测试比较

Lightbits存储服务器(一台)

  • 两个英特尔至强白金8168(24核@ 2).7 ghz)
  • 768GB内存(128GB NVDIMM, 640GB PC2666)
  • 100Gbps Mellanox ConnectX-5
  • 八3.84TB 微米 9300 Max NVMe硬盘
  • Lightbits版本1.2.3

负载生成服务器(4台)

  • 2个Intel至强E5-2690v4(14核@ 2.6 ghz)
  • 256 gb内存
  • 50Gbps Mellanox ConnectX-4
  • YCSB v0.16.0与Cassandra可压缩数据支持

我们通过测量各种固定数据库事务负载下的平均延迟和尾延迟,重点关注本地(四个Cassandra服务器,每个服务器有两个ssd)和远程(一个Lightbits LightOS节点,每个节点有八个ssd)使用相同总数的ssd的性能差异.

所有测试都使用YCSB工作负载A运行,该工作负载为50%的读取和50%的更新工作负载. 我们还将数据分布从“Zipfian”调整为“uniform”,以便在测试期间使用更大的数据集. 这增加了内存中缓存数据的存储利用率. 我们进行了一系列测试,其中YCSB将性能限制为固定数量的OPS, 我们测量了平均和服务质量(QoS) (99.9%)延迟度量. 被测的每个Cassandra数据库为1.大小为39TB.

卡桑德拉与本地NVMe测试, 我们使用软件压缩, 哪一种通常会引入开销并对性能产生直接影响. 我们对本地测试使用本地服务器LVM(逻辑卷管理器)条带化.

用于远程NVMe测试, 我们在Cassandra中禁用软件压缩,并在Lightbits存储服务器中使用Lightfield存储加速插件卡启用压缩. 我们使用Lightbits软件提供的磁盘条带化功能进行远程存储测试. Lightbits还支持独立驱动器冗余阵列(RAID)和逻辑卷的擦除码. 我们可能会在未来的测试中解决这些特性.

测试结果显示有趣的延迟结果

当我们按比例增加每秒数据库操作的数量时, 我们看到Lightbits和本地存储配置上的平均读延迟之间存在很强的相关性. 限速60英里,每台服务器000 OPS, 我们开始看到Lightbits和本地存储配置之间的分歧,本地数据库在延迟(线)和OPS(条)方面无法匹配Lightbits配置的性能。. 一个未节流的YCSB测试(右边最后一个数据集)显示,在平均读延迟和总OPS方面,Lightbits存储比本地存储配置具有可测量的优势.

显示YCSB工作负载A的平均读延迟的图表

云工作负载也需要良好的QoS延迟. 下面的图表显示了99.9%的QoS延迟值,结果与平均延迟相似. Lightbits配置再次显示出更好的性能, 无节流QoS延迟增量为28.本地存储为9毫秒,而不是40毫秒.7毫秒用于远程存储.

显示QoS的图表(99.9%) YCSB工作负载A的读延迟

平均更新延迟很有趣,因为两个测试的平均延迟随着负载的增加而减少. 这是YCSB节流机制工作方式的产物. 没有节流的结果(下图最右边的条形图), 在Lightbits和本地NVMe配置上, 显示几乎相同的平均更新延迟(42毫秒vs 43毫秒), 在Lightbits配置上具有更高的总OPS.

显示YCSB工作负载A的平均更新延迟的图表

更新尾部延迟(99.9%)显示,随着负载的增加,两种测试配置的测量延迟都有类似的减少. 同样,这是YCSB在调节性能时测量更新延迟的方式造成的影响. 当负载增加到60,每台服务器000 OPS或更高, 我们再次看到了Lightbits解决方案在99年的显著优势.9%的延迟和总OPS.

显示QoS的图表(99.9%) YCSB工作负载A的更新延迟
沙巴体育安卓版下载这些NVMe/TCP Cassandra结果的美光技术简报. 当它可用时获得通知,并通过在Twitter上关注我们保持最新状态 @微米Tech 和我们联系在一起 LinkedIn.

\r\n"}}' id="text-7d90a150b3">

总结经验教训

Lightbits Labs NVMe/TCP解决方案减少了尾部延迟, 总体性能接近或优于本地NVMe的卡桑德拉. 在像Cassandra这样的应用程序中,分解存储非常有意义,因为它允许管理员为应用程序分配适当的容量,同时利用聚合NVMe的巨大性能.

Lightbits存储服务器的设置和配置非常简单, 我们在一天内就进行了测试. 我们的测试表明,在Lightbits Labs的帮助下,美光最快的NVMe固态硬盘可以转移到外部存储并保持其性能优势.

你想知道更多吗?

美光发现Lightbits NVMe/TCP方法非常有趣 成为投资者. 我们已经计划了一个沙巴体育安卓版下载这些NVMe/TCP Cassandra结果的美光技术简报. 当它可用时获得通知,并通过在Twitter上关注我们保持最新状态 @微米Tech 和我们联系在一起 LinkedIn.

存储解决方案架构总监

瑞安梅雷迪思

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术,以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.