美光与戴尔和英伟达的团队合作,在AI训练模型卸载到NVMe方面进行了行业领先的研究, 在NVIDIA GTC全球人工智能大会上展示的. 美光的数据中心工作量工程团队, 在戴尔技术营销实验室和NVIDIA存储软件开发团队的支持下, 测试了大加速器内存(BaM)与gpu发起的直接存储(GIDS) 英伟达H100 张量的核心 GPU 在戴尔PowerEdge R7625服务器上安装了美光即将推出的高性能Gen5 E3.S NVMe SSD硬盘.
BaM和GIDS是基于以下论文的研究项目, 与GitHub上可用的开源代码:
- BaM系统架构下gpu发起的按需高吞吐量存储访问: http://arxiv.org/abs/2203.04910
- GitHub: http://github.com/ZaidQureshi/bam
NVMe为更多内存?
人工智能模型的规模正在迅速增长, 而训练大型模型的默认方法是在GPU上尽可能多地使用HBM, 然后拥有尽可能多的系统DRAM, 如果一个模型不适合HBM + DRAM, 在多个NVIDIA GPU系统上并行.
在多个服务器上并行训练的成本很高, 特别是在GPU利用率和效率方面, 由于数据需要流经网络和系统链路, 哪些很容易成为瓶颈.
如果我们可以通过使用NVMe作为第三层“慢”内存来避免在多个GPU系统上分割AI训练任务,那该怎么办? 这正是带有GIDS的BaM所做的. 它取代并简化了NVMe驱动程序,将数据和控制路径传递给GPU. 那么它是如何表现的呢?
基准性能结果
所有显示的测试结果都是在上面链接的开源BaM实现中包含的BaM图神经网络(GNN)基准测试中运行的.
第一个测试显示了在启用了GIDS的情况下使用BaM和不使用BaM会发生什么. Linux mmap的一个标准实现用于通过CPU对存储器的错误内存访问, 表示没有特定存储软件的测试用例.
mmap测试耗时19分钟 Nvidia a100 80gb 张量的核心 GPU 和一个美光9400 Gen4 NVMe固态硬盘. 部署BaM和GIDS后,只需42秒,性能提高了26倍. 性能改进体现在基准测试的特征聚合组件中, 这取决于存储性能.
戴尔实验室的Gen5性能
在GTC上,美光希望证明我们即将推出的第5代NVMe固态硬盘能够很好地用于AI模型卸载. 我们与戴尔的技术营销实验室合作,获得了带有英伟达H100 80GB PCIe GPU (Gen5x16)的戴尔PowerEdge R7625服务器的访问权限,并在他们的出色支持下完成了测试.
GNN工作负载性能 | Micron Gen5 H100 | Micron Gen4 A100 | Gen5与Gen4性能 |
---|---|---|---|
特征聚合(NVMe) | 18s | 25s | 2x |
培训(GPU) | 0.73s | 3.6s | 5x |
Sampling | 3s | 4.6s | 1.5x |
端到端时间 (特征聚合+训练+采样的总和) |
22.4s | 43.2s | 2x |
GIDS + BaM访问/s | 2.87M | 1.5M | 2x |
特性聚合取决于SSD的性能. 它的执行时间是总运行时间的80%,从Gen4到Gen5,我们看到了2倍的改进. 采样和训练是GPU相关的, 我们看到从NVIDIA A100到H100张量核心GPU的训练性能提高了5倍. 此用例需要高性能Gen5 ssd, 而美光Gen5固态硬盘的预生产版本的性能几乎是Gen4的两倍.
BaM与GIDS对我们的SSD做了什么?
因为带有GIDS的BaM取代了NVMe驱动程序, 标准的Linux工具查看IO指标(IOPs), latency, etc.)不起作用. 我们对带有GIDS GNN训练工作量的BaM进行了跟踪,并发现了一些惊人的结果.
- 使用GIDS的BaM几乎可以在驱动器的最大IO性能下执行.
- GNN训练的IO配置文件是99%的小块读取.
- SSD队列深度是我们对CPU上“正常”数据中心工作负载期望的10-100倍.
这是一种新颖的工作负载,将推动NVMe性能的高端. 一个GPU可以管理多个并行流, 带有GIDS软件的BaM将管理和优化延迟, 创建甚至可能无法在CPU上运行的工作负载配置文件.
结论
随着人工智能产业的发展, 围绕GPU系统利用率和效率的智能解决方案非常重要. 带有GIDS的BaM等软件将通过提供更好的方法来解决更大的人工智能问题集,从而提高人工智能系统资源的效率. 将模型存储扩展到NVMe会对训练时间产生影响, 但这种权衡将允许在更少的GPU系统上执行对时间不太敏感的大型训练任务, 最终提高部署人工智能硬件的效率和TCO.
此数据用于以下NVIDIA GTC会话:
加速和保护GPU对大型数据集的访问[S62559]
非常感谢以下美光、戴尔和英伟达的工作人员,他们使这项研究成为可能:
- 美光:约翰·马齐,杰夫·阿姆斯特朗
- 戴尔:谢默斯·琼斯,杰里米·约翰逊,莫汉·洛克卡姆
- NVIDIA: Vikram Sharma Mailthody, CJ Newburn, Brian Park, Zaid Qureshi, Wen-Mei Hwu
硬件和软件详细信息:
- 工作量:GIDS与igbh -全面培训.
- 由美光数据中心工作负载工程团队测量的NVMe性能结果, NVIDIA存储软件团队在类似系统上测量的基准(mmap)性能结果.
- 测试系统:
- 代4:2倍AMD EPYC 7713, 64核,1TB DDR4,美光9400 PRO 8TB, NVIDIA A100-80GB GPU, Ubuntu 20.04 LTS (5.4.0-144), NVIDIA驱动535.129.[au:.3, DGL 2.0.0
- Gen5: Dell R7625, 2 AMD EPYC 9274F, 24-core, 1TB DDR5, Micron Gen5 SSD, Nvidia h100-80gb gpu, Ubuntu 20.04 LTS (5.4.0-144), NVIDIA驱动535.129.[au:.3, DGL 2.0.0
- 基于论文“BaM系统架构中gpu发起的按需高吞吐量存储访问”的工作 http://arxiv.org/abs/2203.04910, http://github.com/ZaidQureshi/bam