英特尔在M.2棒上安装10nm Ice Lake CPU，与Nervana NPP-I加速器相遇

发表于 2019年6 月27日星期四下午 7:40:07

英特尔在其位于以色列海法的以色列开发中心（IDC）日宣布其Nervana神经网络推理处理器（简称NPP-I）作为改进的10nm冰湖处理器，将采用插入PCB的PCB M.2端口（是的，通常用于存储的M.2端口）。英特尔还删除了Ice Lake处理器的关键部分，如图形核心和显示块，为AI加速器腾出空间。

信用：汤姆的硬件

AI的世界正在我们身上，准备从根本上改变我们的手机，笔记本电脑和台式机上的本地计算，但大多数AI工作负载仍然发生在数据中心。计算密集型培训工作负载创建复杂的神经网络，运行对象识别，语音转换和语音合成工作负载，仅举几例，但这不是工作停止的地方。在规模上利用人工智能的真正关键在于部署完成的模型来咀嚼在称为推理的任务中分类和分析世界数据的日常任务。

推理工作负载比培训轻得多，因此它们不需要用于创建模型的强大GPU和FPGA机架，但是像所有形式的计算一样，它最终归结为成本。这意味着每瓦性能和廉价的前期定价对于推理更为重要，而这正是英特尔设想其NPP-I加速器（从字面上说）插入从推理密集型工作负载卸载Xeon服务器的地方，从而释放更大的芯片一般计算任务。信用：汤姆的硬件

英特尔采用了Ice Lake的基础设计（如上图所示）并修改了处理器的裸片以针对AI工作负载进行定制。该设备仍在单板上使用标准的Ice Lake软件包和CPU和平台控制器集线器（PCH），但英特尔拆除了芯片上的GPU和显示模块，并将其替换为针对特定类型的定制设计的AI引擎。推理代码。该公司还增加了DSP引擎，可用于未针对固定功能加速器模块进行专门调整的算法，为快速移动的AI空间提供了一些所需的前向兼容性。

英特尔尚未分享加速器模块的细粒度细节，但它们可能使用一系列重复元素，就像GPU一样。由于Gen11的强大内存子系统已经到位以供应野兽，该公司可能会使用定制逻辑（或修改现有单元）替换图形执行单元（EU），同时保留单元之间的互连和互补结构。

CPU仍然具有多个x86英特尔架构（IA）计算内核，但英特尔尚未提供特定的核心数量，而是使用Sunny Cove微架构。推特产品工程总经理英特尔的Oren Gershon模糊地提到该公司删除了一些“其他核心”以便为额外的组件腾出空间，因此这些四核冰湖处理器现在可以作为双核处理器使用。 – 核心模型。信用：汤姆的硬件

英特尔将该软件包安装在不同形式的附加卡上，如上图所示的M.2版本，然后可以插入服务器主板上的标准M.2端口，或插入标准插入的大型附加卡PCIe插槽。与一些专为AI设计的定制芯片（如Google的TPU）不同，该设备与几乎所有现有的现代服务器大致硬件兼容。该方法也是可扩展的：您可以根据需要向服务器添加尽可能多的NPP-I，特别是对于容纳多个M.2端口的PCIe提升板。

英特尔表示，NPP-I属于与Ice Lake处理器类似的热设计功率（TDP）范围，这意味着它们将超过28W，但是M.2接口的15W限制阻碍了向最小设备供电。 NPP-I连接到更大的附加卡可以在最高TDP等级下运行，这意味着它们可以提供更高的性能。

信用：Tom的HardwareIntel将提供软件，完全协调移动推理“作业”到加速器，然后在工作完成时通知Xeon CPU。卸载消除了Xeon通过PCIe总线与其他类型的加速器之间的来回通信，这会对CPU造成负担，因为它会产生中断并需要数据移动。相比之下，NPP-I作为一个独立的系统，具有自己的I / O调节（PCH），允许它访问处理所需的数据。人工智能工作负载往往会贪婪地摄取数据，这会使相对较小的PCIe 3.0 x4连接看起来像带宽瓶颈，但英特尔向我们保证，它已经测试了数据密集型视频分析工作负载，并没有遇到限制。相反，英特尔称这些工作负载类别实际上是计算限制的。

x86内核还支持英特尔的VNNI深度学习指令，该指令利用AVX-512来提升性能。英特尔表示，它提供了最终的灵活性，几乎适用于任何类型的AI工作负载，特别是那些不适合DSP或AI引擎的工作负载。英特尔还提供了一个编译器，可以为NPP-I的加速器定制代码，并与Facebook合作，后者在开发过程中担任公司的“定义”合作伙伴，以确保Glo编译器也支持该设备。该设备还支持所有标准语言，如PyTorch和TensorFlow等，几乎没有任何改动。

最重要的是，Gershon说NPP-I具有领先的效率，“令人惊讶，比多个订单的CPU或GPU要好得多。”推理应用程序远比数据中心培训更普遍，而且价格合理的节能设备将销售en对超大规模和云服务提供商（CSP）来说，这意味着这可能成为英特尔的利润丰厚的部分。该公司本身没有设想这些设备进入零售业，但该公司确实希望CSP在未来通过基于云的实例公开它们。

英特尔尚未通过性能数据支持其大胆的效率声明，但该公司现在已向早期客户提供样品，并表示将在今年晚些时候进行大批量生产。我们确信为推理工作负载提供Tesla T4 GPU的Nvidia和开发自己的支持M.2的Cloud AI 100处理器的Qualcomm也在密切关注。

资讯来源：由0x资讯编译自TOMSHARDWARE。版权归作者所有，未经许可，不得转载