行业新闻

最新的NVMe规范如何改进数据中心的闪存

作者: 发布时间:2019-11-01

数据中心35

与大多数新技术一样,企业在采用NVMe规范的最新版本方面进展缓慢,迄今为止,在超大规模云计算供应商采用了这种技术之后,很多企业才开始采用。

NVMe 1.4规范于今年7月发布,包括用于隔离、可预测的延迟和写入放大功能。但是,作为闪存驱动器和阵列互连的NVMe更高的性能和更低的系统要求正在加速该规范在企业中的使用,预计今年NVMe的存储产品出货量(以GB为单位)预计将超过SAS硬盘和SATA硬盘的总和。

同样在今年7月发布的NVMe-oF 1.1规范是针对NVMe over Fabric的最新规范(而不是直接附加在服务器中),它在现有的光纤通道和RDMA选项中增加了对TCP/IP的支持,并包括针对企业的服务质量保证(QoS)和管理功能。主流存储、网络和管理提供商(如Cisco、Dell、Intel和Mellanox)已准备好通过标准驱动程序甚至硬件加速来支持NVMe-oF,速度最高可达200Gb/s,使其成为在现有TCP/IP环境中部署分散化软件定义的扩展存储的成熟标准。

Virtana公司产品管理总监Henry He表示,基于TCP的NVMe是NVMe-oF 1.1中最重要的功能。他说,“NVMe规范现在可以在整个内联网(Intranet)上进行扩展,以前它已被本地化到数据中心或所需的专用硬件。如果需要光纤通道,则可以使用它,但是如果只需要普通的TCP,那么也可以使用它。”

闪存的标准日益混乱

闪存对于工作负载具有主要优势,从虚拟机到数据库再到大数据和机器学习,NVMe存储产品的价格已开始与SATA SSD硬盘达到同等水平。与此同时,SCSI SSD硬盘无法满足NVMe-oF的速度和延迟。

随着SSD硬盘容量的持续增加(存储容量大约每六个季度增加一倍),出现了一系列具有不同特征的闪存技术:从价格较低的大容量但耐用性较低的QLC到持久性内存(如英特尔Optane和三星Z- NAND)。

英特尔公司研究员、NVM Express标准组织总裁Amber Huffman表示,这增加了数据中心中闪存存储管理的复杂性。

在NVMe 1.4规范中,即使设备包括多种类型的存储,“NVMe设置”也会通过延迟和耐用性对闪存设备进行分组。Huffman指出,“NVMe一直将闪存视为逻辑上的一个组块,但不知道后端会附加什么。正在读写同一NAND位置并产生瓶颈吗?人们正朝着以逻辑方式分解存储设备的概念迈进,但仍通过提供更细粒度的QoS功能而获得抽象的好处。”

向主机公开不同的闪存特性意味着用户可以智能地分配工作负载,通过标记哪个IO需要更高的优先级,为具有较高耐久性的闪存分配繁重的写入活动,同时使用具有较低耐久性的高容量闪存进行繁重的读取,从而使性能更可预测工作量。

“IO确定性”使性能和延迟在规模上更加可预测。闪存读取时间可能会发生很大变化(在某些情况下从微秒到几秒),因此用户现在可以询问设备是否在特定的时间范围内交付,以及是否无法将请求发送到存储架构的另一设备。

自动发现,智能路由

该结构还可以承担更多的发现和智能路由工作,使用户的基础设施更智能,并添加更多动态IO队列资源管理,但不会增加直接通过PCIe连接存储的用户的开销。

添加额外的端口和组件或断开设备连接并不会彻底改变用户存储基础设施。以前,除非重新启动整个发现过程,否则存储主机将不知道更改。现在可以自动动态地发现。

Virtana公司Henry He表示,“在存储方面,用户需要的是减少中断,并减少对应用程序的影响,这使整个系统更易于管理和效率更高。”

Huffman指出,随着NVMe存储网络的规模从数十台扩展到数千台,这一点变得越来越重要。他说,“当我们进入数据池存储方案时,开始有许多方法可以连接到设备,用户需要了解哪种方法是连接到该设备的最佳路径,因为它们的创建方式可能不相同:可能会以更慢、更长的路径进行。”

弹性和恢复

当设备出现故障时,还有新的弹性功能和更多选项。

虽然闪存是可靠的,但有时数据在写入过程中丢失。新的验证功能会在写入数据后立即读取数据,作为对数据完整性的额外检查。

标准化的持久日志可提供有关内部错误状态的更多信息,这些信息可以馈入监视软件以帮助区分关键和非关键错误,或者使用户能够从写入失败但仍然可以读取的硬盘驱动器中恢复数据。它还将帮助企业发现是否需要在处理故障硬盘驱动器之前对其进行清理(以防仍然可以读取它们的数据),并使供应商更容易分辨出介质故障和固件错误之间的区别。

新的重建辅助选项应该可以在部分故障的情况下减少数据丢失。硬盘驱动器将检测到媒质故障,硬盘驱动器控制器将通知主机,主机将尝试从其他副本重建数据。用户还可以使用此功能来更清楚地了解硬盘驱动器的使用寿命,并在硬盘驱动器出现故障之前提前更换。

他建议说,“如今,整个基础设施变得更智能、更具弹性并且更能容忍潜在的故障。”

更好的安全性

其中许多功能在存储管理软件中可用,甚至在某些硬盘驱动器上用作专有功能。将它们放在标准网络堆栈中并一起使用,不仅使它们无处不在,而且使它们具有基本的功能,而且有助于提高安全生命周期。

Huffman说,“我从数据中心客户那里听到的关键的一件事是他们真的想要标准驱动程序。例如,他们需要内置Linux驱动程序,也许添加了一些功能,但是当有人发现安全漏洞时,他们需要标准驱动程序,以便可以快速更新。”

面向未来

综上所述,NVMe使用户能够创建高容量的存储结构,通过混合不同类型的闪存并将正确的工作负载分配给每种存储产品,从而以具有竞争力的成本维持高吞吐量和IOPS。

Huffman建议,它还使用户能够构建一种灵活的存储架构,可以为将来的更改和尚未计划的设备做好准备。

Huffman解释说:“我们从企业客户那里听到,IO连接确实非常昂贵。当他们考虑IO带宽速度和他们需要提供的通道数量时,如果不采用光纤架构,他们宁愿使用PCIe,也不愿与存储设备建立连接。”

NVMe现在使他们可以灵活地连接加速器,以在需要时训练机器学习模型(例如计算存储)。Huffman说,“当他们现在正在构建系统时,不知道世界会带来多快的变化,也不知道两年后需要什么。借助NVMe规范,他们将获得所有的灵活性。”

相关阅读:

香港数据中心之地下行动  

河北省大数据基础设施支撑带初具规模