英伟达要在大数据市场搞事情:新的GPU加速技术了解一下

近日,英伟达推出了一项名为GPUDirect Storage的新技术,通过这项新功能,GPU可以直接与NVM-Express存储器通信。该技术使用GPUDirect的RDMA工具,将数据从闪存直接传输到GPU的本地内存中,无需主机CPU的参与和系统内存的管理。英伟达这项技术是其扩大在数据科学/机器学习市场应用的战略之一。

 

如果该战略实施成功,英伟达便可以进入另一个快速增长的应用市场中,并在很大程度上淘汰现有市场上的主流选择-CPU。这个市场即基于服务器的数据科学和机器学习市场,年规模在200亿到250亿美元之间,这跟当前超性能计算机和深度学习服务器市场的总体规模大致相当。所以,从本质上来说,英伟达此举是希望在数据中心应用市场中的规模翻倍。

 


            英伟达要在大数据市场搞事情:新的GPU加速技术了解一下


 


该扩张策略开始于去年十月份,当时英伟达推出了RAPIDS工具,这是一套开源的工具和库,用于支持基于GPU的分析和机器学习。简单来说,RAPIDS这项工具在Apache Arrow、Spark等数据科学工具链中添加了对GPU加速的支持,旨在将GPU引入大数据企业应用更传统的地盘,到目前为止,这些地盘还在被使用Hadoop和MapReduce这些应用软件的CPU集群掌控着。

 

根据英伟达新任数据科学部门总经理Josh Patterson的说法,RAPIDS涵盖了机器学习的方方面面,包括监督学习、无监督学习和数据处理等。他的这个表态引起了大数据传统企业应用从业者的怀疑。“我认为,人们对RAPIDS在数据处理上的能力存在怀疑。”Patterson告诉记者。

 

但是事实上,GPU越来越大,连接性能越来越好,从应用的角度来看也更加通用了。与此同时,数据分析则变得越来越复杂,工作流程中越来越多地集成了机器学习。现在,使用TB级别规模的数据并需要进行千万亿次计算的应用正在变得越来越普遍。

 

所有这些变化都需要使用可扩展的基础设施。借助于NVLink和NVSwitch,连接在一起的GPU阵列就像一个巨大的计算加速器一样,它们之间的所有本地内存互相共享,并为具体应用提供内存资源。英伟达的这项新技术最初是为DGX架构而设计的,该架构旨在解决规模更大、更复杂的神经网络训练问题。Patterson说,英伟达意识到,这些巨大的虚拟GPU内存可以用于大数据,但是其中的一个瓶颈是如何实现快速存取数据。

 

通常情况下,在采用GPU加速器的系统中,所有的输入输出都会通过主机CPU和系统内存,然后才会被分流到GPU的本地内存中。GPU通常使用“反弹缓冲区”实现这种导流和分流。“反弹缓冲区”设置在系统内存中,数据传输到GPU之前会在系统内存中保存副本。显然,对于需要快速数据流动的大型应用,这种间接式的数据存取方案不可取,因为它引入了额外的通信延迟,还需要保存内存副本,不仅降低了在GPU上运行的应用程序的性能还损耗了主机CPU的计算周期。这就是GPUDirect Storage要解决的问题。

 


            英伟达要在大数据市场搞事情:新的GPU加速技术了解一下


 


英伟达声称,使用这项技术可以将IO带宽提高50%,延迟降低3.8倍。NVMe over Fabrics远程存储可以通过互连的存储服务器的共享池容纳数个PB数据,英伟达声称,其新技术可实现比系统内存页面缓存技术更快的访问速度。如果您有一个集成了16个GPU和1.5TB系统内存的DGX-2系统,与未经过优化的版本相比,GPUDirect Storage可以将数据吞吐能力提高8倍。之所以如此,是因为现在可以发挥DGX-2接近200GB/S的IO带宽,如果从主机系统内存再到GPU,带宽则只有50GB/S。这种数据速度的提升将有效提高与IO相关的各种数据分析工作以及需要大量存取文件操作的应用的效率,对传统的HPC也有好处。

 

在这项技术的加持下,原始数据可以直接从存储器加载到GPU的内存中,这意味着GPU也可以用于解压缩和解码,从而减轻CPU在这些任务上的负担。Patterson表示,截止到目前为止,该技术已经支持了包括CSV、Parquet、AVRO、ORC和JSON在内的许多常用数据分析文件格式,同时,未来版本将支持XML、HDF5和ZAR等其他格式。

 

GPUDirect Storage的两项基本技术是远程直接内存访问(RDMA)和NVM-Express(NVMe),特别是NVMe over Fabrics(NVMe-oF)。RDMA封装在GPUDirect的协议中,并已经实现在各种网络适配器中,包括Mellanox NIC。正如我们之前提到的,这项技术可以用于扩展使用NVLink和/或NVSwitch的DGX风格的GPU系统。

 

这项技术同时适用于NVM-Express的本地存储和远程存储(即NVMe-oF)。Patterson指出,当前技术所支持的网络仅限于InfiniBand,对以太网RDMA(RoCE)的支持正在开发过程中,最终可能会支持除Mellanox Technologies之外的所有其它供应商的网络设备。

 

GPUDirect Storage现在还没有向大众普遍公开。下周,英伟达将向一些特定的客户开放一个封闭的alpha版本,并计划于今年11月份发布公开的测试版本。Patterson说,大众版的上市时间定于2020年初,届时,它将做为CUDA工具包的一个组成部分提供。这是Patterson在英伟达数据科学部门总经理岗位上的第一个重大决策,他希望客户提前了解英伟达的这项新技术,以便在考虑部署GPU基础架构时将这项新功能纳入自己的规划中。

 

“在提前告知客户们我们的新动向上,有的时候我认为我们做得还不够好,”Patterson解释道。“企业的行动速度并不像我们想象的那么快,所以这一次我们想提前告知他们这项很快就要成熟的新技术。”

 

同时,英伟达必须继续说服业界,对待数据分析他们是认真的。这意味着,英伟达需要和更多从事存储业务的企业合作,与分析软件供应商合作,以便这些客户们支持通过GPUDirect Storage技术连接自己的存储节点。Patterson表示,他们打算遵循过去将GPU渗透到HPC和深度学习用户中的策略,即提供许多在应用上开源但是保留了CUDA专有技术的多种外延性软件产品。

 

如果一切都按照计划顺利进行,即便不推出任何新硬件,2020年也将是英伟达GPU的一个突破年。“我们真的认为,这项技术将从根本上改变人们对数据科学的看法。”Patterson自信满满地表示。


 

与非网编译内容,未经许可,不得转载!

标签: