Cerebras Systems推出业界首款万亿晶体管芯片

一家致力于加速人工智能(AI)计算的初创公司,推出了有史以来最大的芯片。 Cerebras晶圆比例引擎(WSE)针对AI工作进行了优化,是一种单芯片,包含超过1.2万亿个晶体管,面积为46,225平方毫米。 WSE比最大的图形处理单元大56.7倍,该单元测量815平方毫米和211亿个晶体管1。 WSE还包含3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。

。@ CerebrasSystems推出业界首款万亿晶体管芯片 – #Cerebras晶圆级引擎。它是有史以来最大的芯片,将以前所未有的计算密度改变#ArtificialIntelligence领域。

在AI中,芯片尺寸非常重要。大芯片可以更快地处理信息,在更短的时间内产生答案。通过缩短洞察时间或“培训时间”,研究人员可以测试更多想法,使用更多数据并解决新问题。谷歌,Facebook,OpenAI,腾讯,百度和许多其他人认为,今天人工智能的根本限制是培训模型需要很长时间。缩短培训时间消除了整个行业进步的主要瓶颈。

“脑力劳动WSE”专为人工智能设计而设计,包含基础创新,通过解决限制芯片尺寸的数十年的技术挑战(如交叉光罩连接,良率,功率输送,等等)来推动最新技术发展。和盘点,“Cerebras Systems的创始人兼首席执行官Andrew Feldman说。 “每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能,只需很小的功耗和空间。“

通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是多级计算反馈回路。较快的输入在循环中移动,循环学习或“训练”的速度越快。通过循环更快地移动输入的方法是加速循环内的计算和通信。

Cerebras Wafer Scale Engine专注于AI,可加速计算和通信,从而缩短培训时间。这种方法很简单,是WSE大小的函数:由于芯片面积比最大的图形处理单元多56.7倍,因此WSE提供了更多的内核来进行计算,更多内存靠近内核,因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上,因此所有通信都保留在芯片上。这意味着WSE的低延迟通信带宽是巨大的,因此核心组可以以最高效率协作,并且内存带宽不再是瓶颈。

Cerebras WSE中的46,225平方毫米硅片可容纳400,000个AI优化,无缓存,无开销,计算内核和18千兆字节的本地,分布式,超高速SRAM内存,作为内存层次结构的唯一级别。内存带宽为每秒9 PB。这些内核通过细粒度,全硬件,片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多内核,更多本地内存和低延迟高带宽结构共同构成了加速AI工作的最佳架构。

“虽然AI在一般意义上使用,但没有两个数据集或AI任务是相同的。新的人工智能工作负载不断涌现,数据集继续扩大,“TIRIAS Research的首席分析师和创始人Jim McGregor说。 “随着人工智能的发展,硅和平台解决方案也在不断发展。 Cerebras WSE是半导体和平台设计领域令人惊叹的工程成就,可在单晶圆级解决方案中提供超级计算机的计算,高性能存储器和带宽。

多年来,Cerebras一直与台积电密切合作,台积电是全球最大的半导体代工厂和先进工艺技术的领导者。 WSE由台积电以其先进的16Nano工艺技术制造。

“台积电长期以来一直与行业创新者和领导者合作,共同制造具有领先性能的先进处理器。我们非常高兴与Cerebras Systems合作制造Cerebras晶圆级发动机,这是晶圆级开发的行业里程碑,“台积电运营高级副总裁JK Wang表示。 “台积电的卓越制造和对质量的严格关注使我们能够满足严格的缺陷密度要求,以支持Cerebras创新设计前所未有的芯片尺寸。”

更多内核,更多内存接近内核,更低延迟通信带宽

核心

WSE包含400,000个AI优化的计算核心。被称为稀疏线性代数核心的SLAC,计算核心灵活,可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。 SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们实现了业界最佳的利用率 – 通常是图形处理单元的三倍或四倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,以加速稀疏工作负载(包含零的工作负载)的计算性能,如深度学习。

零在深度学习计算中很普遍:通常,要相乘的向量和矩阵中的大多数元素都是零。然而,乘以零是浪费硅,功率和时间。没有新的信息。

因为图形处理单元和张量处理单元是密集的执行引擎 – 设计为永不遇到零的引擎 – 它们即使在零时也会将每个元素相乘。当50%到98%的数据为零时,通常在深度学习中就是这种情况,大多数乘法都被浪费掉了。想象一下,当你的大部分步骤没有让你走向终点时,试图快速前进。 Cerebras稀疏线性代数核不会乘以零。所有零数据都被过滤掉,可以在硬件中跳过。相反,有用的工作取而代之。

记忆

内存是每个计算机体系结构的关键组件。更接近计算的内存转换为更快的计算,更低的延迟和更好的数据移动功效。高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和内存之间的紧密接近。在图形处理单元中并非如此,其中绝大多数存储器是缓慢且远离的(片外)。

Cerebras Wafer Scale Engine包含更多内核,具有比历史上任何芯片更多的本地内存。这使得能够以更低的延迟和更少的能量实现快速,灵活的计算。 WSE的核心可在一个时钟周期内访问18 GB的片上存储器。 WSE上的核心本地内存集合可以提供每秒9 PB的内存带宽 – 这比领先的图形处理单元多了3,000多个片上内存和10,000多个内存带宽。

通讯面料

Swarm通信结构是WSE上使用的处理器间通信结构,它以传统通信技术的功耗的一小部分实现突破性带宽和低延迟。 Swarm提供低延迟,高带宽的2D网格,可连接WSE上的所有400,000个核心,每秒带宽为100 petabits。 Swarm支持单字活动消息,可以通过接收内核来处理,而无需任何软件开销。路由,可靠的消息传递和同步在硬件中处理。消息会自动激活每个到达消息的应用程序处理程序

Swarm为每个神经网络提供独特的优化通信路径。软件根据正在运行的特定用户定义的神经网络的结构,配置通过400,000个核心的最佳通信路径以连接处理器。

Swarm的结果是行业定义的。典型消息遍历一个具有纳秒延迟的硬件链路。测量的Cerebras WSE的总带宽是每秒100 petabits。不需要诸如TCP / IP和MPI之类的通信软件,因此避免了它们的性能损失。该架构中的通信能量成本远低于每比特一焦耳,这比图形处理单元低近两个数量级。凭借大量带宽和极低延迟的罕见组合,Swarm通信结构使Cerebras WSE能够比所有可用的替代解决方案更快地学习。

资讯来源:由0x资讯编译自AITHORITY,版权归作者AIT News Desk所有,未经许可,不得转载
提示:投资有风险,入市需谨慎,本资讯不作为投资理财建议。请理性投资,切实提高风险防范意识;如有发现的违法犯罪线索,可积极向有关部门举报反映。
你可能还喜欢