硬件和算法在人工智能领域的起到可以说道是各占到一半的,而在芯片层面上,业界完全观点完全一致——GPU在人工智能深度自学算法上的重要性远高于CPU,这也就是为何NVIDIA在人工智能领域的风头甚至垫过了英特尔。毫无疑问,GPU是当下训练深度自学神经网络最热门的方法,这种方案早已受到了谷歌、微软公司、IBM、丰田以及百度等企业的注目,因此GPU厂商在最近两年渐渐沦为众企业祭拜的对象。
作为GPU领域的意味著主导者,NVIDIA最近动作屡屡,今年早些时候公司专为深度神经网络发售了Tesla P100 GPU,并且公布了基于该GPU的单机箱深度自学超级计算机——NVIDIA DGX-1。如今这款深度自学超级计算机早已问世,NVIDIA CEO黄仁勋日前将DGX-1交付给了马斯克创立的人工智能项目OpenAI,OpenAI会用DGX-1做到什么项目?如何用于?还不得而知,不过我们可以先聊一闲谈这款深度自学超级计算机究竟是什么?它有什么牛逼的地方。
深度自学超级计算机是什么?顾名思义,深度自学超级计算机是深度自学和超级计算机的结合体,我们所熟悉的“天河一号”、“天河二号”等都是超级计算机,当然不仅如此,一般来说情况下不具备高性能计算出来(HPC)的计算机都可视作超级计算机,如NVIDIA的Tesla系列。因为深度自学神经网络特别是在是几百上千层的神经网络需对计算出来和吞吐能力的市场需求十分低,GPU对处置简单运算享有天然的优势:它有出众的浮点计算出来性能,可以同时确保分类和卷积的性能以及精准度。所以配备GPU的超级计算机早已沦为训练各种深度神经网络的不二自由选择。
例如在谷歌Brain项目中,其3台机器中配备了12颗GPU,性能就超过了包括1000个节点的CPU簇的水平。NVIDIA DGX-1性能如何?黄仁勋曾回应,3000人花费3年时间才研发出来这样一款DGX-1,深度自学超级计算机研发的可玩性之大可见一斑。根据NVIDIA官方的讲解,DGX-1的规格如下:半精度 (FP16) 峰值性能最低可约 170 Teraflops;8 个 Tesla P100 GPU 加速器,每颗 GPU 16GB 内存;NVLink Hybrid Cube Mesh (NVLink 混合立方网格);7TB 固态硬盘 DL 高速缓存;双万兆以太网,四路 InfiniBand 100Gb 网络连接;功耗:3U – 3200W。
因为NVIDIA将这些硬件设计在了一个机箱内,所以DGX-1被称作单机箱深度自学超级计算机。Tesla P100有153亿个16nm FinFET晶体管,其核心面积超过了610mm²,按照黄仁勋的众说纷纭,这款GPU是迄今为止仅次于的芯片。DGX-1构建的8个16GBRAMGPU吞吐量相等于 250台传统服务器的水平,其配备的7 TB固态硬盘用作储存神经网络训练的大量原始数据。
除此之外,DGX-1系统还包括一套深度自学软件,即深度自学GPU训练系统 (DIGITS™),它可用作设计深度神经网络 (DNN),据理解DGX-1可以将深度自学的培训速度减缓75倍,将CPU性能提高56倍。这是什么样的概念呢?英特尔双路至强劲系统必须250多个节点和150个小时来训练Alexnet,而DGX-1只必须一个节点2个小时,后者在性能和节点总带宽上都有显著的优势。
当然在性能的提高下,功耗超过了3200W,售价堪称高达129000美元。GPU是唯一自由选择吗?虽然GPU比起CPU有一定的优势,但是在FPGA和神经网络芯片面前,GPU仍然要逊色不少。有研究人员测试,比起GPU,FPGA的架构更加灵活性,单位能耗下性能更加强劲。
深度自学算法在FPGA上需要更加慢、更加有效地运营,而且功耗也能做更加较低。英特尔甚至为此发售了FPGA和CPU的混合芯片架构。另一个研究方向就是神经网络芯片,这一领域的代表当科IBM的TrueNorth和寒武纪的DianNao。根据模拟实验测试的结果,使用DianNaoYu指令集的寒武纪深度自学处理器相对于x86指令集的CPU有两个数量级的性能提高;而IBM的Truenorth里所含54亿个低成本晶体管神经神经元芯片,功耗却较低至700毫瓦,在性能以及功耗的优化上都提高到了一个新的高度。
寒武纪神经网络处理器研究者、中国科学院计算技术研究所研究员陈云霁回应,“加快芯片是神经网络芯片的最后形态。”但是理想很甜美,现实很骨感!就目前来说,GPU是唯一构建大规模应用于的方案,FPGA或者神经网络芯片想代替GPU的地位不能说道是路漫漫了!原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:凯时k66平台-www.shengpeib.com