ETHEREUM的记忆硬度

发表于 2019年5 月13日星期一下午 5:12:35

随着加密货币价值的增加，挖矿它们的支出也会增加。这不仅为部署更多的挖矿硬件而且更快地开发更有效的挖矿硬件创造了重要的经济激励。挖矿从CPU迁移到GPU，再到FPGA，现在转移到ASIC。今天，以太坊GPU挖矿已经成为常态，但矿工们还没有开始在专用硬件解决方案（例如FPGA和ASIC）上运行以太坊挖矿/去中心化算法ethash。这归因于ethash是众多文章和论坛的硬记忆（也就是记忆界限）。在这里，我们将介绍以太坊挖矿记忆硬度的来源，以及下一代定制以太坊挖矿硬件的样子。

快速打击工作证明挖矿

在工作量证明挖矿中，矿工的任务是生成一个短的二进制blob（称为nonce），当进行散列时，会产生小于预先指定的目标阈值的输出值。由于每种货币的散列函数的加密货币性质，无法对满足目标阈值限制的随机数进行逆向工程或反向计算。相反，矿工们必须尽快“猜测并检查”哈希值，并希望他们是整个加密货币网络中第一个找到有效随机数的矿工。

ETHEREUM ETHASH HASHING算法如何工作？

Ethash算法基于由区块链的当前长度初始化的伪随机数据集。这称为DAG，每3万个块（或每5天）重新生成一次。截至2017年3月，DAG约为2GB，随着区块链的增长，DAG的规模将继续增长。

ethash哈希算法的流程可归纳如下：

使用类似SHA3的算法组合Preprocessed Header（从最新块派生）和Current Nonce（当前猜测），以创建我们的初始128字节混合，此处称为Mix 0。
Mix用于计算从DAG检索的128字节页面，由Get DAG Page块表示。
混合与已检索的DAG页面混合。这是通过以太坊特定的混合功能来完成的，以产生下一个混合物，这里称为混合物1。
步骤2和3重复64次，最终得到混合物64。
混合64被后处理，导致32字节的较短混合摘要。

混合摘要与预定义的32目标阈值进行比较。如果“混合摘要”小于或等于“目标阈值”，则“当前随机数”将被视为成功并被广播到以太坊网络。否则，当前的Nonce被认为是无效的，并且该算法将使用不同的nonce重新运行（通过递增当前nonce或随机选择一个新的nonce）。

ETHASH HASHING ALGORITHM

为什么这个记忆很难？

每个混合操作都需要从DAG读取128字节（图中的步骤2）。散列单个随机数需要64个混合，导致（128字节x 64）= 8KB的内存读取。读取是随机访问（每个128字节页面是根据混合函数伪随机选择的），因此将一小部分DAG放在L1或L2缓存中并不会有太大帮助，因为下一次DAG提取很可能产生缓存未命中。因为从内存中收集DAG页面比混合计算慢得多，所以我们将看到加速混合计算的性能几乎没有改善。加速ethash哈希算法的最佳方法是加速128字节DAG页面上的内存提取。因此，我们认为ethash算法是硬内存或内存限制，因为我们的性能受到系统内存带宽的限制。

在真正的硬件中记录内存带宽限制

现在让我们更仔细地看一下常用显卡的挖矿性能，作为内存带宽限制如何影响真实硬件的一个例子：ATI Radeon RX 470。

如果ethash散列实际上是硬内存，我们可能期望这个硬件的实际散列值非常接近最大理论散列值，假设DAG页面是唯一完成的步骤。此最大理论哈希值可以计算如下：

（内存带宽）/（每个哈希获取的DAG内存）=最大理论哈希值

（211千兆字节/秒）/（8千字节/哈希）= 26.375兆赫/秒或37.9纳秒/哈希。

在实际操作期间RX 470的经验哈希值是~24兆赫/秒或37.9纳秒/哈希。这比上面计算的最佳理论哈希时间慢3.8纳秒。这种小延迟很容易通过系统中的内存延迟或其他快速操作来解释。因此，这种显卡的性能与预期的一样，假设ethash散列是一个硬内存，而限速步骤是拾取DAG页面。

击败显卡：定制以太坊挖矿硬件的道路

唯一可能的解释是定制的以太坊挖矿硬件在内存带宽上更具成本效益或更节能（更少$/（GB / sec）或更低瓦特/（GB / sec））。

选项1：设计具有高存储带宽的FPGA / ASIC板

看看RX 470，我们可以做一些快速的数学运算（175美元/（211 GB / s）），看它每GB每秒花费0.82美元。与单个GDDR5芯片（例如，Micron EDW4032BABG）相比，它的成本为6.38美元，带宽为24 GB / s，我们可以做到每GB /秒0.28美元。因此，如果我们可以构建可与9个GDDR5芯片接口的定制芯片（ASIC或FPGA），我们将以61.47美元的价格提供216 GB / s的内存带宽。这还不是一个完成的挖矿产品，因为我们需要一个内存控制器，电路板和FPGA或ASIC的电子支持。如果出货的最终装配（添加额外的零件，工艺，测试和物流）成本低于RX 470（仅175美元），那么定制板将击败基于GPU的卡。直到市场上出现更快，更高效，更便宜的显卡。例如，HBM显卡已经可用。但是，如果您发现具有5-10 DDR或HBM内存控制器的低成本，现成的FPGA或ASIC芯片，或者您的公司在构建定制高内存带宽ASIC解决方案方面经验丰富，您可能能够击败 – 货架硬件。但是，如果在这种情况下，你应该改变你的商业模式并建立显卡，因为那已经是一个巨大的市场。

选项2：使用下一代移动芯片组

随着对移动计算机视觉和高级移动3D图形的需求的增加，我们将看到高带宽的移动友好型存储器。这些可能包括集成GPU（例如，NVidia Tegra X1）或独立移动GPU（例如PowerVR Series 8XE）或专用高带宽或集成内存聚焦神经网络处理器的移动系统级芯片解决方案（例如，Movidius Myriad 2）。这些设备类别将不断发展，如果成本，功耗和内存带宽达到正确的最佳点，我们很可能会看到定制的以太坊挖矿机排列在一块采用10-20移动GPU或VPU的挖矿板上。

资讯来源：由0x资讯编译自NVESTLABS。版权归作者Asma所有，未经许可，不得转载