强化（机器）学习是否被夸大了？

发表于 2022年9 月27日星期二上午 2:31:12

想象一下，你正要坐下来和朋友一起玩游戏。但这不仅仅是任何朋友——它是一个不知道游戏规则的计算机程序。然而，它确实明白它有一个目标，而这个目标就是获胜。

因为这个朋友不知道规则，所以它开始随机移动。其中一些完全没有意义，对你来说获胜很容易。但是，假设您非常喜欢和这位朋友一起玩，以至于您决定将余生（如果您相信这个想法，还有未来的生活）专门用于玩这款游戏。

数字朋友最终会获胜，因为它会逐渐学习击败您所需的获胜动作。这个场景可能看起来有些牵强，但它应该让您大致了解强化学习 (RL) – 机器学习 (ML) 的一个领域 – 是如何工作的。

强化学习有多智能？

人类智能包含许多特征，包括获得知识、扩展智力的愿望和直觉思维。然而，当国际象棋冠军加里·卡斯帕罗夫输给一台名为深蓝的 IBM 计算机时，我们的智力能力在很大程度上受到了质疑。除了吸引公众的注意力之外，描绘机器人统治人类世界的世界末日场景也占据了主流意识。

然而，深蓝并不是一个普通的对手。玩这个程序就好比一个千年老的人，一生都在不断的下棋。因此，深蓝擅长玩特定的游戏——而不是其他智力追求，比如演奏乐器、写书、进行科学实验、抚养孩子或修理汽车。

我绝不是试图淡化创造深蓝的成就。相反，我只是建议计算机可以在智力上超越我们的想法需要仔细检查，从 RL 机制的分解开始。

强化学习是如何工作的

如前所述，RL 是 ML 的一个子集，它关注智能代理应如何在环境中行动以最大化上涨奖励的概念。

简而言之，RL 机器人代理接受了奖励和惩罚机制的训练，在这种机制下，它们会因正确的动作而获得奖励，并因错误的动作而受到惩罚。 RL 机器人不会“思考”要采取的最佳行动——它们只是使所有行动成为可能，以最大限度地提高成功机会。

强化学习的缺点

强化学习的主要缺点是实现其目标所需的大量资源。 RL 在另一个名为 GO 的游戏中的成功就说明了这一点——这是一种流行的 2 人游戏，其目标是使用棋子（称为棋子）来最大化棋盘上的领土，同时避免丢失棋子。

AlphaGo Master 是一个在围棋中击败人类棋手的计算机程序，需要大量投资，其中包括许多工程师、数千年的游戏经验以及惊人的 256 个 GPU 和 128,000 个 CPU 内核。

这是学习赢得比赛的大量精力。这就引出了一个问题，即设计不能直观思考的人工智能是否合理。人工智能研究不应该试图模仿人类智能吗？

支持 RL 的一个论点是，我们不应该期望 AI 智能体表现得像人类一样，它用于解决复杂问题值得进一步发展。另一方面，反对强化学习的一个论点是，人工智能研究应该专注于使机器能够做目前只有人类和动物才能做的事情。从这个角度来看，人工智能与人类智能的比较是恰当的。

量子强化学习

有一个新兴的强化学习领域据称可以解决上述一些问题。量子强化学习 (QRL) 已被研究为一种加速计算的方法。

首先，QRL 应该通过优化探索（寻找策略）和利用（选择最佳策略）阶段来加速学习。当前的一些应用和提议的量子计算改进了数据库搜索，将大数分解为素数等等。

虽然 QRL 还没有以开创性的方式出现，但人们期望它可以解决常规强化学习的一些巨大挑战。

强化学习的商业案例

正如我之前提到的，我绝不想削弱 RL 研发的重要性。事实上，在 Oxylabs，我们一直在研究将优化网络抓取资源分配的 RL 模型。

话虽如此，这只是 RL 的一些实际用途示例，来自麦肯锡的一份报告，重点介绍了广泛行业的当前用例：

重新思考强化学习

强化学习可能是有限的，但几乎没有被高估。此外，随着对 RL 的研究和开发的增加，几乎所有经济部门的潜在用例也在增加。

大规模采用取决于几个因素，包括优化算法设计、配置学习环境和计算能力的可用性。

图片来源：Jirsak/depositphotos.com

Aleksandras Šulženko 是 Oxylabs.io 的产品负责人。 Oxylabs 致力于利用 AI 和 ML 来优化网络抓取——从网站提取数据以获得专业见解的过程。单击此处查看我们的白皮书。

资讯来源：由0x资讯编译自BETANEWS，版权归作者Aleksandras Šulženko所有，未经许可，不得转载