对话英特尔AI硬件负责人：什么是真正的AI芯片 | AI英雄|ai英雄|处理器|gpu|spring

对话英特尔AI硬件负责人：什么是真正的AI芯片 | AI英雄

2018-06-07 09:45:43　来源: 网易智能举报

分享至

编者按：5月23日英特尔在美国旧金山举办了首届AI开发者大会（AI DevCon 2018），推出新的AI云端芯片和AI战略，我们采访了英特尔AI产品部门（AIPG）副总裁、AI硬件负责人Carey Kloss，让他为我们揭开NNP芯片的真面目。

出品 | 网易智能（公众号smartman163）

期号 | 第79期（2018年访于旧金山）

作者 | 定西

如今，AI芯片的战火愈演愈烈，英特尔也是时候拿出自己的“深水炸弹”了，而这次天将降大任的就是最新版NNP芯片。

它的全名叫Nervana NNP-L1000（Spring Crest），支持bfloat16这一业界广泛用于神经网络的数字格式，随着时间的推移，英特尔将在AI产品线上扩展对bfloat16的支持，包括英特尔至强处理器和英特尔FPGA，英特尔Nervana NNP的目标是可实现高计算利用率并支持多芯片互连的真正模型并行。

主导这一产品的是英特尔AI产品事业部（AIPG），AIPG是英特尔人工智能的拳头部门，负责策划和执行关于AI方面的研发和产品路线，其中，Carey Kloss是AI硬件的负责人，自1996年以来，他一直在芯片行业从事工作。

这位芯片专家来自Nervana，这家公司2016年并入英特尔麾下，他们几乎撑起来了AIPG的半边天，Carey和Nervana公司的CEO Naveen Rao一同加入英特尔，目前，Naveen Rao担纲英特尔AI战略总策划师，任英特尔副总裁。

这次，关于更多新款AI云端芯片的问题，网易智能对Carey进行了专访。

| 性能提升3到4倍不畏惧竞争对手

问：Lake Crest和Spring Crest的主要区别是什么？

Carey：Lake Crest是先前的设计，是更稳定的处理器。我们在创业时就开始使用它。进入更现代化的制程节点，我们集成了更多的Die（硅芯片），可以获得更快的处理速度。

我们认为Lake Crest作为软件开发工具（software development vehicle）更好,部分原因是因为我们去支持了bfloat。客户对于能在直接获得成果更兴奋，而不是还需要在中间做一些工作。

关于Spring Crest的制程节点，我们尚未公布关于哪些产品使用制程节点的任何信息。因为需要一定的时间去制造硅片，也需要时间把硅片变成新的神经网络处理器，这是延迟到2019年上市的原因。

性能方面，Lake Crest作为我们第一代处理器，现在被用作软件开发工具的时候，我们实现了在GEMM和卷积神经上都实现了非常好的计算利用率。并且这不仅仅是96%吞吐量的利用率，而是在没有充分定制化的情况下,我们也取得了大多数情况下实现GEMM高于80%的计算利用率,这也是很了不起的。

当我们开发Spring Crest这个下一代芯片时，我们保持高计算利用率，新的产品在性能上有3到4倍的性能提升。

问：此前Lake Crest的计算利用率达到了96％，但Spring Crest的计算利用率稍微低了，这是为什么？

Carey：实际上这个是我的想法，把利用率适当下降，有些情况上确实可以实现98%。在没有资源冲突，每个硅芯片都能完全运行的情况下，可以99%甚至100%计算利用率。

每个架构都会有些情况能够充分利用，无论它们现实与否。我想在Spring Crest幻灯片上展示的是，大多数情况下都能实现的利用率。我们当然可以展示在基准测试中获得100%计算利用率的例子，但是我想表示的是很多用例都会有很高的利用率。

问：芯片晚些时候上市会给英特尔在市场竞争中造成不利影响吗？

Carey：我认为我们逐步转向bfloat是一个重要的考虑因素，因为如果这就是市场需要的，那么我认为我们对它的反应很快，我不知道我们的竞争对手的路线图是什么，但我认为我们的反应速度相对较快，所以我认为我们不会在神经网络处理上处于劣势。

bfloat最近变得更受欢迎，我所知道的是，在过去四个月中，有多个客户来到我们这里并特别要求bfloat。

问：哪些类型的顾客或者行业对Spring Crest感兴趣？

Carey：Spring Crest可以说是最高等级的Nervana神经元处理器架构。

因此，它有同样的客户，例如超大规模中心，超大规模CSP，已经拥有相当强大的数据科学工作的大型企业客户，例如政府和其他企业。

我想从另一种角度来回答这个问题，哪些客户对此不感兴趣。数据科学或人工智能还是比较新的，这是一个非常热门，非常激动人心的领域，而且正在迅速改变。传统的企业客户可能拥有数据，但他们可能无法在其数据中心部署高端设备。我们作为英特尔提供的服务，以及我们的路线图和我们的总体策略是提供整个产品组合。你可以基于nGraph和Xeon开始工作。你的数据中心已经部署了英特尔至强处理器，那你没有理由再去购买神经网络处理器或者其他类似产品。你有了至强并且围绕至强做一些工作，你可以得到你的数据状态。

但如果你发现神经网络可以帮助你，并且尝试找到如何能够让它赚钱，这时候你可以说你更加严肃认真对待它，当然英特尔可以提供神经网络处理器产品，能够让你更严谨地去进行训练。现在你可以购买很多NNP产品，并可以运用相同的软件栈，你可以获得相同的优化和优化路径，你可以为不同的硬件进行优化。甚至你可以用不同的Crest或者Xeon，这取决你想要干什么。或者，你已经开始了训练阶段，你的数据科学家开始尝试去训练不同的模型，现在你的需求是大规模部署推理阶段。

重中之重是，不是一种解决方案满足所有需求，如果你需求的是低延且小模型，至强就能帮助到你，它可以把数据从云到端手机起来。如果是一些大型模型，而不是只处理一种类型的数据，你需要一些更具体能够进行推理的部署。这就是和我们今天早上宣布有关，这里潜在蕴含着，我们正计划给数据中心提供推理加速，当然更多细节不能透露。

| 整合资源快速迭代初始团队只有45人

问：在开发新芯片的时候你们遇到了什么样的困难？

Carey：我们先来谈一下Lake Crest，我们创业初期就开始研发Lake Crest，我们整个团队大概45人，当时正在构建一个最大的Die（硅芯片），我们开发了Neon，我们还构建了云栈，这些都是40-45人团队所完成的。

这就是挑战，公司成立在2014年，直到去年芯片才真正问世，3年的时间不短，现在一切都是新的，我们现在属于英特尔，可以访问英特尔的资源，流程也变得简单，同时也有足够的员工同时进行处理器多代开发，就像一个真正CPU公司。

我认为我已经具备了明年取得成功所有要素，小团队成长会有阵痛，我们花了很长时间才把第一批产品拿出来，但我们现在处于合理的节奏中，现在我们每年都会看到改进，当前我们的人员配置合理，资源配置合适，能够更好的展开工作。

问：但整合所有需要的资源并不是一件容易的事吧？

Carey：当然不是一件容易的事情，但英特尔在将产品推出市场方面拥有丰富的经验，我曾经在大大小小不同的公司工作过，英特尔这点让我印象非常深刻，英特尔有迄今为止我见过的最佳的后硅培养（post-silicon bring-up）和架构分析。出品芯片，我们有数百个系统同时运行。

而且，同事们夜以继日协同工作，不仅仅来自Nervana的员工，6个月前刚加入的员工也是如此。当然让数以百计的员工朝着同一个愿景工作是很困难的，但英特尔是我所经历过的做的更好的一家公司。

问：什么是Lake Crest编程模型？它与GPU相似吗？

Carey：不是的，从高层面看，任何加速器都是一样的，你有一个为特定的图层编写的内核，将内核放在设备里，然后将数据存储在设备上，这就可以了。

所以从这个角度来看，它们都非常相似，在较低层面上，Lake Crest和Crest家族一般都没有共享的二级缓存，它具有软件控制的内存，因此软件工程师或者内核开发工程师可以控制内存中的内容，控制其在内存中保留的时间，控制从处理元件到处理元件的内容，从芯片到芯片的内容，它是静态的，你无需处理缓存冲突等。

让这成为可能的是，在深度学习中，你能提前知道所有的操作，内核开发工程师能更轻松地保留数据，移动数据和优化性能，我们可以这样做，因为我们不需要做随机指示，我可以提前知道指示。

而这一切对数据科学家来说都是隐藏的，数据科学家从来不想围绕GPU编码，他们只是想要高速度，而Nervana GPU内核就是这样提供的，我们拥有世界上最快的GPU内核，我们拥有与某些客户合作的FT16内核，这也是Nervana比硬件更为出名的地方，硬件实际上并没有被讨论，这些高速内核使数据科学家能够从当时的硬件中获取最多的内容，而无需被低水平细节所打扰，这是一种很好的模式，因为可以在不同的产品中改变计算机结构，并且由于除了位于英特尔的专门核心团队外，没有人直接在硬件上编写代码，我们可以管理这一更改并且始终尽可能优化硬件，可以添加说明，可以添加函数，可以改变事物的工作方式，可以在不影响数据科学的情况下更改bfloat。

| 积极应对行业变化新芯片明年上市

问：数据科学家本身不关注硬件？

Carey：没错，我不认为数据科学家真正关心的是底层的问题，他们只是希望它速度很快，他们不会在乎法拉利是电动的还是混合动力的，是V12还是四缸发动机他们只想在三秒钟内看到它从0到60。

问：nGraph与CUDA相比的优势是什么？

Carey：nGraph与CUDA还是不一样的，CUDA你可以理解为 nGraph的底面，我们称之为变压器，nGraph通过一个固定的API接收来自TensorFlow、Caffe或MXNet的输入，然后通过图形编译器进行性能优化，排除一些不需要的东西，然后将其发送给CPU的MKL-DNN，所以CPU仍然使用MKL-DNN，即使在nGraph中也是如此，相似的，我们也需要为Crest的变压器，我们也需要一个英特尔其他硬件的变压器。

问：目前是否有关于Spring Crest的速度有多快的数据或基准？

Carey：我们暂时没有公布具体数字，与Lake Crest相比，在性能上有3-4倍的提升，基于我们用客户提供的Lake Crest反馈，我们在整个设计过程中提高了性能。

问：有人认为我们正处于部署算法的早期，你对算法的潜在变化有什么看法？

Carey：我认为算法和硬件之间有一点共生关系，反之亦然。

如果你往回看，过去的几年，在GPU上的GEMM核心会很快，因此当时所有的深度学习都指出如何利用GEMM核心来进行工作，因为这也是GPU仅有可以很快进行处理的地方，如今，GPU上有很多新的核心，数据科学家指出许多新的写入核心，我们的硬件处于两者之间，它并没有完全固定的函数，我们的硬件处理各种各样的激励函数，通过bfloat处理各种浮点运算，并且我们控制设备执行超出当前浮点范围的事情，你的GEMM，你的卷积神经，将会得到超级优化，我们不会像其他竞争对手一样拥有固定的函数，我们不会像GPU一样为了通用用途，我认为我们处于一个良好的中间点，在未来的几年也不会过时，随着时间的推移，我们将增加更多的通用硬件，以处理更多的混合工作负载。

问：你们是如何制定AI路线图的？背后有哪些考虑？

Carey：我们的路线图与任何人的路线图都相似：每年更大，更强，更快。

我们每年都会进行增量架构更改以提升性能，行业中出现的任何新事物如果与我们的硬件产品组合相关，我们会采取行动。（完）

注：《AI英雄》人物专访隶属网易智能工作室，与行业人士一起洞察技术趋势，捕捉行业机会。转载请注明出处，违者必究！

点击查看《AI英雄》专题，往期内容一步直击！