现在的位置: 首页资讯>正文

NVIDIA造出16核心全球最大GPU,它的作用功不可没!

2018年07月11日 作者: 暂无评论 354+ 0

在之前的GTC2018大会上,英伟达发布了全新的DGX-2超级计算机。凭借多达16颗Volta GPU强大的计算能力,这款重达350磅、售价40万美元的机器可以提供最多2PFLOPS的深度学习计算能力,堪称目前AI业界的最强者。那么,英伟达是如何将16颗Tesla V100的GPU连接在一起,并发挥出如此强大的计算能力的呢?要回答这个问题,就有必要来看看什么是NVLink 2和NVSwitch。

随着AI市场的兴起,英伟达近年来在GPU上持续发力,不断推出全新的产品。新产品在计算能力提升的同时,其芯片面积也已经屡创新高,甚至逼近了制程和成本的平衡极限。以最新的GV100核心为例,其计算能力高达单精度浮点15TFLOPS,双精度浮点8.5TFlops,新加入的Tensor Core带来了大约120TFlops的AI计算能力。获得如此计算能力的代价是GV100的芯片面积已经高达815平方毫米,堪称史上面积第一大的GPU核心。即使是台积电使用了最先进的12nm制程,受制于芯片如此大的面积,其良率表现和最终成本也很不好看。

但是,即使这样的计算能力、即使已经逼近成本和制造平衡线,GV100核心也是无法满足AI计算需求的。在深度学习的模型训练中,面对海量的数据,人们对计算能力的需求几乎是无限的,TFLOPS仅仅是入门,科学家们还在考虑如何制造和使用性能达到PFLOPS甚至EFLOPS、ZFLOP性能级别的设备,更快的性能带来了更快的计算速度,也带来了更高的效率来完成计算并获得结果,实现研究的突破。

对英伟达来说,单芯片计算能力已经达到了目前技术条件下的上限,除非更换全新的制程,否则14/16nm世代的工艺已经很难再榨出油水(TSMC 12nm工艺实际上只是之前16nm工艺的深度优化版本,起名12nm更多是商业用途)。为了满足计算能力的需求,英伟达开始考虑并联多个GPU来获得更好的性能。

和桌面SLI等消费级技术完全不同的是,工业和科学研究所需要的计算加速设备对GPU并联的需求更高,8个起步,16个也才刚刚够看。鉴于此,英伟达需要一种全新的总线来连接所有的GPU,以实现数据共享和满足计算所需,这就是NVLink的由来。

NVLink

小试牛刀的160GB/s

说起NVLink,我们不得不提到PCIe总线。在NVLink出现之前,多GPU之间的互联是由PCIe总线完成的,PCIe 3.0 x16总线能够提供32GB/s的双向带宽,借助于PCIe Switch的存在,PCIe总线能够完成CPU-GPU、GPU-GPU之间的数据交换。一个典型的例子就是AMD的CrossFire X多卡互联系统,完全借助PCIe总线来传递数据,甚至不需要额外的桥接通道,相比之下,英伟达的SLI技术至今依旧在使用桥接芯片实现GPU的直接连接。

▲依赖PCIe总线的多路GPU系统。

虽然通过PCIe总线可以连接多颗GPU,但是仅仅32GB/s的双向带宽和PCIe Switch的存在,还是使得更多GPU之间的连接存在瓶颈。尤其是在AI计算这种需要更多数据传递和平衡的系统中,PCIe不可能支持诸如8个GPU这样的系统,因此系统的性能难以继续提升。

在这种情况下,英伟达决定自行开发一种总线用于多GPU互联。在2016年发布的Pascal架构GPU中,英伟达首次推出了这种名为NVLink的总线系统。单个NVLink是一个双向接口,包含了32个链路,每个方向形成8个差分对。根据英伟达的数据,Pascal家族的GP100核心中集成了4个NVLink总线,每个可以提供40GB/s的带宽,因此GP100芯片拥有的带宽为160GB/s。

支持NVLink技术与不支持NVLink技术的CPU连接结构示意图。

作为一种创新的总线设计,NVLink如果只是用于连接GPU,就显得有些浪费了。实际上英伟达希望NVLink作为系统的基础总线而存在,就像PCIe总线那样。在这一点上,IBM有力地支持了英伟达,IBM为旗下的高性能处理器Power 8+中加入了对NVLink 1.0的支持,这使得Power 8处理器能够通过更快、更宽的NVLink连接GPU,而不是之前的PCIe。在一些系统中,四颗GP100 GPU和2个IBM Power 8+处理器借助于NVLink总线,可以实现GPU之间的两两联通以及CPU和GPU之间的互联互通,相比PCIe效率大大提升。

NVLink总线结构示意图。

除了面向大中型设备外,英伟达还推出了采用英特尔处理器、使用NVLink总线的设备。这款专门面向AI加速市场的设备被称为DGX-1,它集成了8颗GP100 GPU和双插槽、20核心的英特尔至强Xeon E5-2698v4处理器。由于每颗GPU只有4个NVLink总线,因此8颗GPU组成了立方体样式的网状网络拓扑结构。其中一组4颗GPU可以实现两两连接,然后每颗GPU再和另一组相对应的GPU直连,最终实现了8颗GPU互联的设计。

▲DGX-1的8路GPU连接方案示意图。

NVLink接口正视图。

在和CPU通讯方面,由于英特尔的至强Xeon处理器不支持NVLink,因此GPU需要通过PCIe总线连接至CPU。在这种系统中,8颗GPU所需要的PCIe通道数量远远超过了系统所能提供的上限,因此每一对2颗GPU连接至一个PCIe Switch,系统中的4个PCIe Switch能够满足8颗GPU和CPU通讯的需求,CPU之间的通讯使用了英特尔自己的QPI总线。通过这样复杂的设计,DGX-1完成了双路CPU和8路GPU的互联。

借助于NVLink总线,系统实现了双Power8 CPU和4颗GPU的互联。

NVLink 2.0

迈向单芯片300GB/s带宽

由于NVLink推出后获得了成功,因此英伟达继续研发第二代NVLink总线,IBM也跟进推出了支持NVLink 2.0的Power 9处理器。NVLink 2.0的特点在于将每条链路的信号带宽从之前的20GB/s提升至25GB/s,因此一条NVLink 2.0总线的双向带宽可以达到50GB/s,账面数据提升了25%。

文章分页: 1 2

发表评论

相关文章

PC逐渐式微?Intel与你一同来看

比如Intel在存储领域发力就是一个显著的信号,还有FPGA芯片的开发、限制Xeon E3的民用并最终砍掉等等。这也就不难理解,为什么PC平台的处理器这些年经历着“得过且过”的日子了。

小米Max 3安兔兔跑分近12万,搭载骁龙636

小米Max 3的总成绩达到了118741分,与高通骁龙660的跑分比较接近(骁龙660跑分在13万左右)。其中CPU部分得分为55879,GPU得分为21313,UX得分为32744, MEM得分为8805。

华为麒麟710揭秘:首次12nm工艺+人脸面部识别

华为在深圳大运中心体育场召开新品发布会,发布两款新机nova 3、nova 3i,都有前后四摄像头,处理器分别搭载旗舰级麒麟970、全新主流级麒麟710

历经两月,AMD/NVIDIA主流显卡最高降价幅度达18%

相较去年,显卡挖矿正处于低潮。在这种情势下,游戏玩家们暂时收获一波红利,从5月份开始,PC独显就开始了一波明显降价。据3D Center整理,AMD在市场售卖的主力显卡在过去两个月间,零售均价...

AMD/NV一触即发:Intel目前最大硬伤

科再奇的离职给Intel后续的发展带来了不确定因素,但究其根本还是市场竞争越来越激烈。