帮助机器感知一些物理定律

发表于 2019年12 月3日星期二下午 3:02:09

人类对物理现实定律有较早的了解。例如，婴儿对物体应该如何移动以及如何相互影响抱有期望，当他们做一些意想不到的事情时会表现出惊讶，例如在惯用的魔术中消失。

现在，麻省理工学院的研究人员已经设计了一个模型，该模型展示了对有关对象应如何行为的一些基本“直观物理学”的理解。该模型可用于帮助构建更智能的人工智能，进而提供信息以帮助科学家理解婴儿的认知。

这个名为ADEPT的模型观察物体在场景中的运动，并根据其基本物理原理预测物体的行为。在跟踪对象时，模型在每个视频帧上输出与“惊奇”水平相关的信号-信号越大，惊喜越大。如果某个对象与模型的预测严重不匹配（例如，在整个场景中消失或传送），则其惊奇程度将达到峰值。

为了回应视频显示物体以物理上似乎合理和难以置信的方式运动，模型记录了令人惊讶的水平，该水平与观看同一视频的人类报告的水平相匹配。

“婴儿出生3个月的时候，他们有了一些观念，即物体不会进出眨眼，不能相互移动或传送，”第一本书的研究科学家凯文A.史密斯说。脑与认知科学系（BCS）和脑，脑与机器中心（CBMM）的成员。 “我们想捕获并正式化这些知识，以将婴儿的认知建立为人工智能代理。我们现在正在以类似于人类的方式来分离模型，以区分基本的，令人难以置信或合理的场景。”

论文的第一作者，电机工程和计算机科学系的本科学生Mei Lingjie和BCS研究科学家Yao Shuyu共同加入了Smith。 Wu Jiajun Wu博士'19； CBMM调查员Elizabeth Spelke； Joshua B. Tenenbaum，计算认知科学教授，CBMM，BCS和计算机科学与人工智能实验室（CSAIL）的研究人员； CBMM研究人员Tomer D. Ullman博士'15。

现实不匹配

ADEPT依赖于两个模块：一个“逆向图形”模块，该模块从原始图像中捕获对象的表示形式；一个“物理引擎”，其从可能性的分布中预测对象的未来表示形式。

逆向图形基本上是从像素输入中提取对象的信息，例如形状，姿势和速度。该模块将视频帧捕获为图像，并使用逆向图形从场景中的对象中提取此信息。但这并不会陷入细节上。 ADEPT仅需要每个形状的一些近似几何即可起作用。在某种程度上，这有助于模型将预测广义化为新对象，而不仅仅是对其进行训练的对象。

“一个物体是矩形还是圆形都没有关系，无论它是卡车还是鸭子。ADEPT只是看到有一个物体处于某个位置，以某种方式移动，可以做出预测，” Smith说。 “类似地，在进行物理预测时，婴儿似乎也不太在意诸如形状之类的某些特性。”

这些粗略的对象描述被输入到物理引擎中，该引擎是模拟物理系统（例如刚体或流体体）行为的软件，通常用于电影，视频游戏和计算机图形学。乌尔曼说，研究人员的物理引擎“将物体及时向前推”。这将为下一帧中的这些对象产生一系列预测或“置信度分布”。

接下来，模型观察实际的下一帧。它再次捕获对象表示，然后根据其置信度分布将其与预测的对象表示之一对齐。如果物体服从物理定律，则两种表示形式之间不会有太大的不匹配。另一方面，如果该对象做了不可思议的操作（例如，它从墙后消失了），则将出现严重的不匹配。

然后，ADEPT从其信念分布中重新采样，并注意到该物体完全消失的可能性非常低。如果有足够低的概率，则该模型会将很大的“惊喜”记录为信号尖峰。基本上，惊喜与事件发生的概率成反比。如果概率非常低，则信号尖峰会非常高。

乌尔曼说：“如果有物体落在墙后，您的物理学引擎就会认为该物体仍在墙后。如果墙掉了，什么也没有，那就不匹配了。” “然后，模型说，'我的预测中有一个物体，但是我什么也看不到。唯一的解释是它消失了，这令人惊讶。”

违反期望

在发展心理学中，研究人员进行“违背期望”测试，在其中向婴儿展示了成对的视频。一段视频显示了一个合理的事件，物体遵循了他们对世界运作方式的预期观念。其他视频在各个方面都是相同的，只是对象的行为以某种方式违反了预期。研究人员通常会使用这些测试来测量发生了难以置信的动作后婴儿看着场景的时间。研究人员推测，凝视的时间越长，他们对所发生的事情可能会感到惊讶或感兴趣。

对于他们的实验，研究人员基于经典开发研究创建了几种方案，以检查模型的核心对象知识。他们雇用了60名成人，观看了64个视频，这些视频在已知的物理上合理的和物理上难以置信的场景中。例如，对象将在墙后移动，当墙掉落时，它们仍将存在或消失。参与者在各个时刻以0到100的比例对他们的惊喜评分。然后，研究人员向模型显示了相同的视频。具体而言，这些场景检查了模型捕获永久性概念（对象不会无缘无故地消失或消失），连续性（对象沿连接的轨迹移动）和坚固性（对象不能彼此移动）的能力。

ADEPT在影片中物体与墙后移动并在移除墙后消失的视频中特别适合人类。有趣的是，该模型还匹配了人类不感到惊讶但也许应该感到惊讶的视频上的惊奇程度。例如，在一个视频中，以一定速度移动的物体在墙后消失并立即从另一侧出来，当该物体在墙后移动时可能会急剧加速，或者可能已传送到另一侧。总的来说，人类和ADEPT都不太确定该事件是否令人惊讶。研究人员还发现，从观察中学习物理学的传统神经网络-但没有明确表示对象-很难将令人惊讶的场景与毫无意外的场景区分开，而且他们对令人惊讶的场景的选择通常与人类不符。

接下来，研究人员计划进一步研究婴儿如何观察和了解世界，以将任何新发现纳入其模型。例如，研究表明，当物体完全以某种方式发生变化时，直到一定年龄的婴儿实际上并不感到惊讶-例如，卡车消失在墙后，却像鸭子一样重新出现。

史密斯说：“我们想看看还有什么需要建立的，以便更像婴儿一样了解世界，并使我们对心理学的认识正规化，以建立更好的AI代理。”

有所作为：赞助机会

故事来源：

用料由…提供麻省理工学院。注意：可以编辑内容的样式和长度。

资讯来源：由0x资讯编译自SCIENCEDAILY，版权归作者所有，未经许可，不得转载