对话英特尔AI硬件负责人:什么是真正的AI芯片 | AI英雄

2018-06-07 09:45:43 来源: 网易智能
0
分享到:
T + -
编者按:5月23日英特尔在美国旧金山举办了首届AI开发者大会(AI DevCon 2018),推出新的AI云端芯片和AI战略,我们采访了英特尔AI产品部门(AIPG)副总裁、AI硬件负责人Carey Kloss,让他为我们揭开NNP芯片的真面目。

AI英雄 | 英特尔AI硬件负责人Carey Kloss:什么是真正的AI芯片

出品 | 网易智能(公众号smartman163

期号 | 79期(2018年访于旧金山)

作者 | 定西

如今,AI芯片的战火愈演愈烈,英特尔也是时候拿出自己的深水炸弹了,而这次天将降大任的就是最新版NNP芯片。

它的全名叫Nervana NNP-L1000Spring Crest),支持bfloat16这一业界广泛用于神经网络的数字格式,随着时间的推移,英特尔将在AI产品线上扩展对bfloat16的支持,包括英特尔至强处理器和英特尔FPGA,英特尔Nervana NNP的目标是可实现高计算利用率并支持多芯片互连的真正模型并行。

主导这一产品的是英特尔AI产品事业部(AIPG),AIPG是英特尔人工智能的拳头部门,负责策划和执行关于AI方面的研发和产品路线,其中,Carey KlossAI硬件的负责人,自1996年以来,他一直在芯片行业从事工作。

这位芯片专家来自Nervana,这家公司2016年并入英特尔麾下,他们几乎撑起来了AIPG的半边天,CareyNervana公司的CEO Naveen Rao一同加入英特尔,目前,Naveen Rao担纲英特尔AI战略总策划师,任英特尔副总裁。

这次,关于更多新款AI云端芯片的问题,网易智能对Carey进行了专访。

| 性能提升34倍 不畏惧竞争对手

问:Lake CrestSpring Crest的主要区别是什么?

CareyLake Crest是先前的设计,是更稳定的处理器。我们在创业时就开始使用它。进入更现代化的制程节点,我们集成了更多的Die(硅芯片),可以获得更快的处理速度。

我们认为Lake Crest作为软件开发工具(software development vehicle)更好,部分原因是因为我们去支持了bfloat。客户对于能在直接获得成果更兴奋,而不是还需要在中间做一些工作。

关于Spring Crest的制程节点,我们尚未公布关于哪些产品使用制程节点的任何信息。因为需要一定的时间去制造硅片,也需要时间把硅片变成新的神经网络处理器,这是延迟到2019年上市的原因。

性能方面,Lake Crest作为我们第一代处理器,现在被用作软件开发工具的时候,我们实现了在GEMM和卷积神经上都实现了非常好的计算利用率。并且这不仅仅是96%吞吐量的利用率,而是在没有充分定制化的情况下,我们也取得了大多数情况下实现GEMM高于80%的计算利用率,这也是很了不起的。

当我们开发Spring Crest这个下一代芯片时,我们保持高计算利用率,新的产品在性能上有34倍的性能提升。

问:此前Lake Crest的计算利用率达到了96%, 但Spring Crest的计算利用率稍微低了,这是为什么?

Carey实际上这个是我的想法,把利用率适当下降,有些情况上确实可以实现98%。在没有资源冲突,每个硅芯片都能完全运行的情况下,可以99%甚至100%计算利用率。

每个架构都会有些情况能够充分利用,无论它们现实与否。我想在Spring Crest幻灯片上展示的是,大多数情况下都能实现的利用率。我们当然可以展示在基准测试中获得100%计算利用率的例子,但是我想表示的是很多用例都会有很高的利用率。

问:芯片晚些时候上市会给英特尔在市场竞争中造成不利影响吗?

Carey我认为我们逐步转向bfloat是一个重要的考虑因素, 因为如果这就是市场需要的,那么我认为我们对它的反应很快, 我不知道我们的竞争对手的路线图是什么,但我认为我们的反应速度相对较快,所以我认为我们不会在神经网络处理上处于劣势。

bfloat最近变得更受欢迎,我所知道的是,在过去四个月中,有多个客户来到我们这里并特别要求bfloat

问:哪些类型的顾客或者行业对Spring Crest感兴趣?

CareySpring Crest可以说是最高等级的Nervana神经元处理器架构。

因此,它有同样的客户,例如超大规模中心,超大规模CSP,已经拥有相当强大的数据科学工作的大型企业客户,例如政府和其他企业。

我想从另一种角度来回答这个问题,哪些客户对此不感兴趣。数据科学或人工智能还是比较新的,这是一个非常热门,非常激动人心的领域,而且正在迅速改变。传统的企业客户可能拥有数据,但他们可能无法在其数据中心部署高端设备。我们作为英特尔提供的服务,以及我们的路线图和我们的总体策略是提供整个产品组合。你可以基于nGraphXeon开始工作。你的数据中心已经部署了英特尔至强处理器,那你没有理由再去购买神经网络处理器或者其他类似产品。你有了至强并且围绕至强做一些工作,你可以得到你的数据状态。

但如果你发现神经网络可以帮助你,并且尝试找到如何能够让它赚钱,这时候你可以说你更加严肃认真对待它,当然英特尔可以提供神经网络处理器产品,能够让你更严谨地去进行训练。现在你可以购买很多NNP产品,并可以运用相同的软件栈,你可以获得相同的优化和优化路径,你可以为不同的硬件进行优化。甚至你可以用不同的Crest或者Xeon,这取决你想要干什么。或者,你已经开始了训练阶段,你的数据科学家开始尝试去训练不同的模型,现在你的需求是大规模部署推理阶段。

重中之重是,不是一种解决方案满足所有需求,如果你需求的是低延且小模型,至强就能帮助到你,它可以把数据从云到端手机起来。如果是一些大型模型,而不是只处理一种类型的数据,你需要一些更具体能够进行推理的部署。这就是和我们今天早上宣布有关,这里潜在蕴含着,我们正计划给数据中心提供推理加速,当然更多细节不能透露。

AI英雄 | 英特尔AI硬件负责人Carey Kloss:什么是真正的AI芯片

| 整合资源快速迭代 初始团队只有45

问:在开发新芯片的时候你们遇到了什么样的困难?

Carey我们先来谈一下Lake Crest,我们创业初期就开始研发Lake Crest,我们整个团队大概45人,当时正在构建一个最大的Die(硅芯片),我们开发了Neon,我们还构建了云栈,这些都是40-45人团队所完成的。

这就是挑战,公司成立在2014年,直到去年芯片才真正问世,3年的时间不短,现在一切都是新的,我们现在属于英特尔,可以访问英特尔的资源,流程也变得简单,同时也有足够的员工同时进行处理器多代开发,就像一个真正CPU公司。

我认为我已经具备了明年取得成功所有要素,小团队成长会有阵痛,我们花了很长时间才把第一批产品拿出来,但我们现在处于合理的节奏中,现在我们每年都会看到改进,当前我们的人员配置合理,资源配置合适,能够更好的展开工作。

问:但整合所有需要的资源并不是一件容易的事吧?

Carey当然不是一件容易的事情,但英特尔在将产品推出市场方面拥有丰富的经验,我曾经在大大小小不同的公司工作过,英特尔这点让我印象非常深刻,英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。出品芯片,我们有数百个系统同时运行。

而且,同事们夜以继日协同工作,不仅仅来自Nervana的员工,6个月前刚加入的员工也是如此。当然让数以百计的员工朝着同一个愿景工作是很困难的,但英特尔是我所经历过的做的更好的一家公司。

问:什么是Lake Crest编程模型?它与GPU相似吗?

Carey不是的,从高层面看,任何加速器都是一样的,你有一个为特定的图层编写的内核,将内核放在设备里,然后将数据存储在设备上,这就可以了。

所以从这个角度来看,它们都非常相似,在较低层面上,Lake CrestCrest家族一般都没有共享的二级缓存,它具有软件控制的内存,因此软件工程师或者内核开发工程师可以控制内存中的内容,控制其在内存中保留的时间,控制从处理元件到处理元件的内容,从芯片到芯片的内容,它是静态的,你无需处理缓存冲突等。

让这成为可能的是,在深度学习中,你能提前知道所有的操作,内核开发工程师能更轻松地保留数据,移动数据和优化性能,我们可以这样做,因为我们不需要做随机指示,我可以提前知道指示。 

而这一切对数据科学家来说都是隐藏的,数据科学家从来不想围绕GPU编码,他们只是想要高速度,而Nervana GPU内核就是这样提供的,我们拥有世界上最快的GPU内核,我们拥有与某些客户合作的FT16内核,这也是Nervana比硬件更为出名的地方,硬件实际上并没有被讨论,这些高速内核使数据科学家能够从当时的硬件中获取最多的内容,而无需被低水平细节所打扰,这是一种很好的模式,因为可以在不同的产品中改变计算机结构,并且由于除了位于英特尔的专门核心团队外,没有人直接在硬件上编写代码,我们可以管理这一更改并且始终尽可能优化硬件,可以添加说明,可以添加函数,可以改变事物的工作方式,可以在不影响数据科学的情况下更改bfloat

| 积极应对行业变化 新芯片明年上市

问:数据科学家本身不关注硬件?

Carey没错,我不认为数据科学家真正关心的是底层的问题,他们只是希望它速度很快,他们不会在乎法拉利是电动的还是混合动力的,是V12还是四缸发动机 他们只想在三秒钟内看到它从060

问:nGraphCUDA相比的优势是什么?

CareynGraphCUDA还是不一样的,CUDA你可以理解为 nGraph的底面,我们称之为变压器,nGraph通过一个固定的API接收来自TensorFlowCaffeMXNet的输入,然后通过图形编译器进行性能优化,排除一些不需要的东西,然后将其发送给CPUMKL-DNN,所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此,相似的,我们也需要为Crest的变压器,我们也需要一个英特尔其他硬件的变压器。

问:目前是否有关于Spring Crest的速度有多快的数据或基准?

Carey我们暂时没有公布具体数字,与Lake Crest相比,在性能上有3-4倍的提升,基于我们用客户提供的Lake Crest反馈,我们在整个设计过程中提高了性能。

问:有人认为我们正处于部署算法的早期,你对算法的潜在变化有什么看法

Carey我认为算法和硬件之间有一点共生关系,反之亦然。

如果你往回看,过去的几年,在GPU上的GEMM核心会很快,因此当时所有的深度学习都指出如何利用GEMM核心来进行工作,因为这也是GPU仅有可以很快进行处理的地方,如今,GPU上有很多新的核心,数据科学家指出许多新的写入核心,我们的硬件处于两者之间,它并没有完全固定的函数,我们的硬件处理各种各样的激励函数,通过bfloat处理各种浮点运算,并且我们控制设备执行超出当前浮点范围的事情,你的GEMM,你的卷积神经,将会得到超级优化,我们不会像其他竞争对手一样拥有固定的函数,我们不会像GPU一样为了通用用途,我认为我们处于一个良好的中间点,在未来的几年也不会过时,随着时间的推移,我们将增加更多的通用硬件,以处理更多的混合工作负载。

问:你们是如何制定AI路线图的?背后有哪些考虑?

Carey我们的路线图与任何人的路线图都相似:每年更大,更强,更快。

我们每年都会进行增量架构更改以提升性能,行业中出现的任何新事物如果与我们的硬件产品组合相关,我们会采取行动。(完)

注:《AI英雄》人物专访隶属网易智能工作室,与行业人士一起洞察技术趋势,捕捉行业机会。转载请注明出处,违者必究!

专访洪小文:微软的新机遇与亚洲研究院的新探索


点击查看《AI英雄》专题,往期内容一步直击!

王超 本文来源:网易智能 责任编辑:张怡_NBJS6309
分享到:
跟贴0
参与0
发贴
为您推荐
  • 推荐
  • 娱乐
  • 体育
  • 财经
  • 时尚
  • 科技
  • 军事
  • 汽车
+ 加载更多新闻
×

文学鬼才马伯庸,讲解22本隐世奇书

热点新闻

态度原创

阅读下一篇

返回网易首页返回科技首页
用微信扫描二维码
分享至好友和朋友圈
x