解释：L1与L2与L3缓存

发表于 2020年8 月11日星期二下午 12:27:10

从廉价笔记本电脑到价值一百万美元的服务器，任何一台计算机中发现的每个CPU都将拥有一个称为“缓存”的东西。它很有可能也会拥有多个级别。

它必须很重要，否则为什么会在那里？但是缓存有什么作用，为什么需要不同级别的东西呢？12路组合关联到底意味着什么？

缓存到底是什么？

TL; DR：它很小，但是非常快的内存位于CPU的逻辑单元旁边。
但是，当然，我们可以了解有关缓存的更多信息…

让我们从一个虚构的，神奇的存储系统开始：它无限快速，可以一次处理无限数量的数据事务，并始终保持数据安全。甚至不存在任何遥远的东西，但是如果确实存在，处理器设计将更加简单。

CPU仅需要具有用于加法，乘法等的逻辑单元，以及用于处理数据传输的系统。这是因为我们的理论存储系统可以立即发送和接收所需的所有号码；没有一个逻辑单元会等待数据事务。

但是，众所周知，没有任何魔术存储技术。取而代之的是，我们拥有硬盘驱动器或固态驱动器，即使其中最好的驱动器也无法远程处理典型CPU所需的所有数据传输。

数据存储的巨大突破

原因是现代CPU的速度非常快-它们仅需一个时钟周期即可将两个64位整数相加，对于运行4 GHz的CPU，这仅是0.00000000025秒或四分之一纳秒。

同时，旋转硬盘驱动器仅需数千纳秒即可在内部磁盘上查找数据，更不用说传输数据了，固态驱动器仍需数十或数百纳秒。

这样的驱动器显然不能内置在处理器中，因此这意味着两者之间将存在物理隔离。这只会增加数据移动的时间，使情况变得更糟。

可悲的是数据存储的伟大

因此，我们需要的是另一个数据存储系统，它位于处理器和主存储之间。它需要比驱动器更快的速度，能够同时处理大量数据传输，并且离处理器更近。

嗯，我们已经有了这样的东西，它被称为RAM，每个计算机系统都有一些用于此目的的东西。

几乎所有这类存储都是DRAM（动态随机存取存储器），它能够比任何驱动器更快地传输数据。

但是，尽管DRAM速度极快，但它无法存储尽可能多的数据。

美光公司是DRAM的少数制造商之一，其中一些最大的DDR4存储器芯片可容纳32 Gbit或4 GB数据。最大的硬盘驱动器容量比这大4000倍。

因此，尽管我们已经提高了数据网络的速度，但仍需要额外的系统（包括硬件和软件），以便确定应将哪些数据保留在有限数量的DRAM中，以备CPU使用。

至少可以将DRAM制造为位于芯片封装中（称为嵌入式DRAM）。但是，CPU很小，因此您不能在其中投入太多。

Xbox 360图形处理器左侧仅10 MB的DRAM。资料来源：CPU墓地

绝大多数DRAM位于处理器旁边，插入主板，并且在计算机系统中，它始终是最接近CPU的组件。然而，它仍然不够快…

DRAM仍需要约100纳秒的时间来查找数据，但至少每秒可以传输数十亿比特。看来我们需要另一级存储，才能进入处理器单元和DRAM之间。

输入左级：SRAM（静态随机存取存储器）。在DRAM使用微观电容器以电荷形式存储数据的情况下，SRAM使用晶体管做同样的事情，并且它们的工作速度几乎与处理器中的逻辑单元一样快（大约比DRAM快10倍）。

当然，SRAM有一个缺点，那就是空间。

基于晶体管的内存比DRAM占用更多的空间：对于相同大小的4 GB DDR4芯片，您将获得不到100 MB的SRAM。但是，由于它是通过与创建CPU相同的过程制成的，因此SRAM可以直接在处理器内部构建，并尽可能靠近逻辑单元。

基于晶体管的内存比DRAM占用更多的空间：对于相同大小的4 GB DDR4芯片，您将获得不到100 MB的SRAM。

每增加一个阶段，我们就增加了数据移动的速度，从而增加了存储量。我们可以继续添加更多的部分，每个部分更快但更小。

因此，我们对高速缓存是一个更技术的定义：它是SRAM的多个块，全部位于处理器内部；它们用于通过以超快的速度发送和存储数据来确保逻辑单元保持尽可能繁忙。对此满意吗？很好-因为从现在开始它将变得更加复杂

高速缓存：多层停车场

正如我们所讨论的，需要缓存是因为没有一种神奇的存储系统可以满足处理器中逻辑单元的数据需求。现代的CPU和图形处理器包含许多SRAM块，这些SRAM块在内部组织成一个层次结构-一系列的高速缓存，其顺序如下：

在上图中，CPU由黑色虚线矩形表示。ALU（算术逻辑单元）在最左边；这些是为处理器提供动力，处理芯片运算能力的结构。尽管从技术上讲它不是高速缓存，但最接近ALU的内存级别是寄存器（它们组合在一起成为一个寄存器文件）。

其中的每一个都拥有一个数字，例如64位整数。该值本身可能是有关某物的一条数据，一条特定指令的代码或某些其他数据的内存地址。

台式机CPU中的寄存器文件非常小-例如，在Intel的Core i9-9900K中，每个内核中有两个存储区，而一个整数存储区仅包含180个64位寄存器。另一个寄存器文件，用于向量（数字的小数组），具有168个256位条目。因此，每个内核的总寄存器文件不到7 kB。相比之下，Nvidia GeForce RTX 2080 Ti的流式多处理器（GPU等效于CPU内核）中的寄存器文件大小为256 kB。

寄存器与高速缓存一样，都是SRAM，但它们与所服务的ALU一样快，可以在单个时钟周期内将数据移入和移出。但是它们的设计目的不是要容纳太多数据（仅存储其中的一部分），这就是为什么附近总是存在一些更大的内存块的原因：这是1级缓存。

英特尔Skylake CPU，单核放大。资料来源：Wikichip

上图是Intel Skylake台式机处理器设计的单核的放大照片。

可以在最左侧看到ALU和寄存器文件，并以绿色突出显示。图片的顶部中间是白色的1级数据缓存。它没有太多的信息，只有32 kB，但是像寄存器一样，它非常靠近逻辑单元，并以与它们相同的速度运行。

另一个白色矩形表示1级指令高速缓存，大小也为32 kB。顾名思义，该命令存储了各种命令，这些命令可以分解为较小的所谓的微操作（通常标记为μop），以供ALU执行。它们也有一个缓存，您可以将其归类为0级，因为它比L1缓存小（仅进行1,500次操作）并且更近。

您可能想知道为什么这些SRAM块这么小？为什么它们不为兆字节呢？数据和指令高速缓存一起占用的芯片空间几乎与主要逻辑单元占用的空间相同，因此使其增大将增加芯片的整体尺寸。

但是它们仅保留几kB的主要原因是，随着内存容量的增大，查找和检索数据所需的时间也会增加。L1高速缓存必须非常快，因此必须在大小和速度之间达成折衷-最多需要5个时钟周期（较长的浮点值）才能从该高速缓存中获取数据，以备使用。

Skylake的L2高速缓存：256 kB的SRAM优度

但是，如果这是处理器内部唯一的缓存，则其性能将突然崩盘。这就是为什么它们都在内核中内置了另一级内存：2级缓存。这是一个通用的存储块，保存着指令和数据。

它总是比级别1大很多：AMD Zen 2处理器的最大容量为512 kB，因此可以保持较低级别的缓存的良好供应。但是，这种额外的大小需要付出一定的代价，并且与级别1相比，从该缓存中查找和传输数据大约要花费两倍的时间。

追溯到最初的Intel Pentium时代，Level 2缓存是一个单独的芯片，位于小型插入式电路板上（例如RAM DIMM）或内置在主板中。最终它像奔腾III和AMD K6-III处理器一样，一直运用于CPU封装本身，直到最终被集成到CPU裸片中。

此发展很快便有了另一个级别的缓存，以支持其他较低级别的缓存，并且它是由于多核芯片的兴起而实现的。

英特尔Kaby Lake芯片。资料来源：Wikichip

这张图片是Intel Kaby Lake芯片的，在左中间显示了4个内核（集成GPU占据了右侧一半的裸片）。每个内核都有其自己的“专用”级别1和2高速缓存集（白色和黄色高亮显示），但它们也带有第三组SRAM块。

3级缓存，即使它直接围绕一个核心，也已与其他内核完全共享-每个人都可以自由访问另一个L3缓存的内容。它更大（介于2到32 MB之间），但也慢得多，平均超过30个周期，尤其是在内核需要使用相距一定距离的缓存块中的数据时。

在下面，我们可以看到AMD Zen 2架构中的单个内核：白色的32 kB 1级数据和指令缓存，黄色的512 KB 2级缓存和红色的4 MB巨大块。

AMD Zen 2 CPU，单核放大。资料来源：Fritzchens Fritz

等一会儿。32 kB如何占用比512 kB更多的物理空间？如果级别1保留的数据很少，为什么它成比例地比L2或L3缓存大得多？

不仅仅是一个数字

高速缓存通过加快向逻辑单元的数据传输速度，并在附近保留常用指令和数据的副本来提高性能。缓存中存储的信息分为两部分：数据本身以及它最初位于系统内存/存储中的位置-此地址称为缓存标签。

当CPU运行要从内存中读取或写入数据的操作时，它首先检查一级缓存中的变量。如果存在所需的数据（缓存命中），则几乎可以立即访问该数据。当所需标签不在最低缓存级别中时，发生缓存未命中。

因此，将在L1高速缓存中创建一个新标签，其余的处理器体系结构将超越，遍历其他高速缓存级别（如有必要，一直返回主存储驱动器）以查找该标签的数据。但是要在L1缓存中为该新标签腾出空间，总是必须将其他内容引导到L2中。

这导致几乎恒定的数据改组，所有这些都只需要几个时钟周期即可实现。实现此目的的唯一方法是在SRAM周围具有复杂的结构，以处理数据管理。换句话说，如果一个CPU内核仅由一个ALU组成，则L1缓存会简单得多，但是由于有许多缓存（其中许多将处理两个指令线程），因此缓存需要多个连接来保持一切都在进行中。

您可以使用免费程序（例如CPU-Z）来检查为自己的计算机供电的处理器的缓存信息。但是所有这些信息意味着什么？一个重要的元素是关联的标签集-这与所有规则有关，这些规则由系统内存中的数据块如何复制到缓存中执行。

上面的缓存信息适用于Intel Core i7-9700K。它的1级缓存分别分为64个小块（称为集合），每个块又进一步分为缓存行（大小为64字节）。集关联意味着将来自系统内存的数据块映射到一个特定集合中的高速缓存行上，而不是自由地在任何地方进行映射。

8向部分告诉我们，一个块可以与一组中的8条缓存行关联。关联性级别越高（即“方式”越多），则当CPU搜寻数据时，命中高速缓存的机会就越大，并减少由高速缓存未命中引起的损失。缺点是它增加了更多的复杂性，增加了功耗，并且还可能降低性能，因为有更多的缓存行要处理一个数据块。

L1 + L2包含性高速缓存，L3受害者高速缓存，回写策略，甚至ECC。资料来源：Fritzchens Fritz

高速缓存复杂性的另一个方面涉及如何跨各个级别保存数据。规则是在包含策略中设置的。例如，英特尔酷睿处理器具有完全包含的L1 + L3缓存。这意味着，例如，级别1中的相同数据也可以位于级别3中。这似乎在浪费宝贵的缓存空间，但是好处是，如果处理器在搜索低级标签时出错，则会丢失它。级别，则无需遍历更高级别即可找到它。

在相同的处理器中，L2缓存是非包含性的：存储在其中的任何数据都不会复制到任何其他级别。这样可以节省空间，但确实会导致芯片的存储系统必须搜索L3（总是更大）以找到丢失的标签。受害者缓存与此类似，但是它们习惯于存储从较低级别推出的信息-例如，AMD的Zen 2处理器使用L3受害者缓存，该缓存仅存储来自L2的数据。

还有其他用于缓存的策略，例如何时将数据写入缓存和主系统内存。这些称为写策略，当今大多数CPU使用回写式缓存。这意味着，当将数据写入高速缓存级别时，在使用其副本更新系统内存之前会有一个延迟。在大多数情况下，只要数据保留在高速缓存中，此暂停就会运行-仅在启动后，RAM才会获取信息。

Nvidia的GA100图形处理器，总共装有20 MB的L1和40 MB的L2缓存

对于处理器设计人员而言，选择高速缓存的数量，类型和策略都是为了平衡对更大处理器功能的需求与复杂性和所需裸片空间的需求。如果有可能拥有20 MB，1000路完全关联的1级高速缓存，而芯片却不像曼哈顿那么大（并消耗相同的功率），那么我们都将拥有配备这种芯片的计算机

在过去的十年中，当今CPU中最低的缓存级别并没有太大改变。但是，三级缓存的大小仍在继续增长。十年前，如果您幸运地拥有一台售价999美元的Intel i7-980X，则可以获得12 MB的内存。如今，您只需花一半的钱就能得到64 MB。

简而言之，缓存：绝对需要的，绝对出色的技术。我们没有研究过CPU和GPU中的其他缓存类型（例如转换查找缓冲区或纹理缓存），但是由于它们都遵循我们在此介绍的简单的级别结构和模式，因此听起来可能并不合理。复杂。

您是否拥有一台在主板上具有二级缓存的计算机？还记得子板中的那些基于插槽的Pentium II和Celeron CPU（例如300a）吗？您还记得您的第一个共享L3的CPU吗？请在评价部分留下您的意见。

资讯来源：由0x资讯编译自TECHSPOT，原文：https://www.techspot.com/article/2066-cpu-l1-l2-l3-cache/。版权归作者所有，未经许可，不得转载