新型计算机系统寻求复制人类智能

作为对人类身体直觉本质的调查的一部分，麻省理工学院的研究人员训练了一个神经网络，以预测不稳定的堆积块将如何对重力产生响应。

麻省理工学院的大脑和认知科学教授乔希·特南鲍姆（Josh Tenenbaum）在麻省理工学院的大脑，思维和机器中心指导研究智力发展，该中心是基于麻省理工学院的一个多学科，多学科的项目，旨在解释和复制人类智力。

Tenenbaum和他的一名学生Wu Jiajun在今年的神经信息处理系统大会上展示了他们的工作，他是四篇论文的合著者，这些论文探讨了智能主体在世界中所需要的基本认知能力：辨别不同的物体和推断他们对身体力量的反应。

研究人员认为，通过构建开始近似于这些能力的计算机系统，研究人员可以帮助他们回答有关人类在发展的哪些阶段使用哪些信息处理资源的问题。在此过程中，研究人员可能还会产生一些对机器人视觉系统有用的见解。

Tenenbaum说：“这里的共同主题实际上是学习感知物理学。”“首先，要查看对象的完整3D形状以及场景中的多个对象，以及它们的物理属性（例如质量和摩擦力），然后要推理这些对象将如何随时间移动。嘉俊的四篇论文涉及整个领域。综上所述，我们开始能够制造能够捕获越来越多的人们对物理世界的基本了解的机器。”

其中三篇论文涉及从视觉和听觉数据推断有关物体物理结构的信息。第四类处理根据这些数据预测对象的行为。

双向街道

将所有四篇论文结合在一起的另一件事是他们不寻常的机器学习方法，该技术是计算机通过分析大量训练数据来学习执行计算任务的技术。在典型的机器学习系统中，训练数据标记为：例如，人类分析人员将识别视觉场景中的对象或抄录口头句子中的单词。该系统尝试了解数据的哪些功能与哪些标签相关联，并根据其对以前未查看的数据进行标签的程度进行判断。

在Wu和Tenenbaum的新论文中，对该系统进行了训练，可以推断出世界的物理模型-例如，物体的3D形状大多看不见。但是随后它向后工作，使用模型重新合成输入数据，并根据重建数据与原始数据的匹配程度来判断其性能。

例如，使用视觉图像为场景中的对象建立3-D模型时，需要剥离所有遮挡对象。过滤掉令人困惑的视觉纹理，反射和阴影；并推断出看不见的表面的形状。但是，在Wu和Tenenbaum的系统建立了这样的模型后，它将在空间中旋转模型并重新添加视觉纹理，直到可以近似输入数据为止。

确实，研究人员的四篇论文中有两篇解决了从视觉数据中推断3-D模型的复杂问题。在这些论文上，还有其他四名MIT研究人员，包括威廉·弗里曼（William Freeman），珀金斯大学电气工程和计算机科学教授，以及DeepMind，上海科技大学和上海交通大学的同事。

分而治之

研究人员的系统基于麻省理工学院神经科学家大卫·马尔（David Marr）的有影响力的理论，他于1980年不幸去世，享年35岁。马尔假设，在解释视觉场景时，大脑首先会对其所包含的对象创建一个他所谓的2.5D草图，即仅表示面对观察者的那些对象的表面。然后，根据2.5D草图（而不是有关场景的原始视觉信息），大脑推断出对象的完整三维形状。

Wu说：“这两个问题都非常困难，但是有一种很好的方法可以解决它们。”“您一次可以做一个，因此不必同时处理两个，这更加困难。”

Wu和他的同事的系统需要接受包括视觉图像和图像所描绘对象的3D模型在内的数据的培训。为真实照片中描绘的对象构建准确的3-D模型将非常耗时，因此，最初，研究人员使用合成数据训练系统，其中合成的视觉图像是从3-D模型生成的，反之亦然。创建数据的过程类似于创建计算机动画电影的过程。

但是，一旦在合成数据上对系统进行了训练，就可以使用实际数据对其进行微调。这是因为其最终性能标准是重构输入数据的准确性。它仍在构建3-D模型，但无需将其与人工构建的模型进行性能评估。

在评估他们的系统时，研究人员使用了一种称为交集交集的度量，这在该领域中很常见。从这个角度来看，他们的系统胜过其前辈。但是，给定的交叉点联合得分为3D模型的平滑度和形状上的局部变化留出了很大的空间。因此，吴和他的同事还对模型对源图像的保真度进行了定性研究。在这项研究的参与者中，有74％的人比新系统更喜欢新系统的重建。

跌倒了

在Wu和Tenenbaum的另一篇论文中，Freeman以及麻省理工学院，剑桥大学和上海科技大学的研究人员再次加入了他们的研究中，他们训练了一个系统来分析掉落的物体的录音，从而推断出诸如物体的形状，组成和下落高度。再次，该系统经过训练以生成对象的抽象表示，然后，该系统又用于合成从特定高度掉落时对象发出的声音。根据合成声音和源声音之间的相似性来判断系统的性能。

最后，DeepMind和牛津大学的Wu，Tenenbaum，Freeman及其同事在他们的第四篇论文中描述了一种系统，该系统开始模拟人类对作用在世界物体上的物理力的直观理解。本文从前几篇论文中摘录：假设系统已经推断出对象的3D形状。

这些形状很简单：球和立方体。研究人员训练了他们的系统以执行两项任务。首先是估计在台球桌上移动的球的速度，并在此基础上预测碰撞后球的行为。第二个方法是分析堆叠的多维数据集的静态图像，并确定它们是否会掉落，以及确定是否会降落在多维数据集的位置。

Wu开发了一种表示语言，他称之为场景XML，可以定量表征视觉场景中对象的相对位置。系统首先学习用该语言描述输入数据。然后，它将描述提供给称为“物理引擎”的物理引擎，该引擎对作用在所表示对象上的物理力进行建模。物理引擎是计算机动画（它们可以产生衣服，掉落的物体等）的运动以及科学计算（用于大规模物理模拟）的重要组成部分。

在物理引擎预测了球和盒子的运动之后，该信息被馈送到图形引擎，该图形引擎的输出再次与源图像进行比较。与视觉辨别工作一样，研究人员在对合成数据进行训练之前，会对它们的系统进行真实数据的完善。

在测试中，研究人员的系统再一次超越了以前的系统。实际上，在某些涉及台球的测试中，它的性能通常也优于人类观察者。

“他们工作背后的关键见解是利用先进的物理工具-渲染器，仿真引擎，有时是受过训练的模型-来训练生成模型，”南加州大学计算机科学助理教授约瑟夫·林（Joseph Lim）说。“这个简单而优雅的想法与最新的最新深度学习技术相结合，在与解释物理世界有关的多项任务上显示了出色的成果。”

文件：

通过可视化脱机动画学习看物理MarrNet：通过2.5D草图进行3D形状重构自我监督的固有图像分解声音的形状和材料