http://www.sohu.com/a/146752308_473283
新智元编译
来源:deepmind.com;arXiv.org
译者:文强
【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文,称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN,能够预测视觉场景中各个物体在未来几百步所处位置,另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN,可以“即插即用”,提升其他深度神经网络结构(如 CNN)关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明,RN 的总体推理正确率已经达到 95.5%,超越人类水平。
研究一:视觉互动网络 VIN,从原始视觉观察中学习真实物理机制的通用模型
首先看《视觉互动网络》(Visual Interaction Networks)。
DeepMind 官方博客中称,理解关系推理的一大关键因素是,预测未来一个真实场景中发生了什么。
只看一眼,人类不仅能够推断出物体接下来几秒钟、几分钟乃至更长时间所处的位置,还能够预测接下来发生了什么。
例如,对着墙踢一个球,大脑能够预测到球碰到墙以及接下来球和墙两者的走向:球会根据入射角度、速度反弹,而墙应该还会在那里不动。
这些预测虽然简单,但都是由一套复杂的认知系统所引导的。
由此,DeepMind 的相关研究人员开发了“视觉互动网络”(Visual Interaction Network,VIN),能够简单模拟大脑的推断系统。
VIN 能够根据几帧连续的视频,推断(infer)上面多个物体接下来所处的位置。
这与生成模型不同,生成模型生成的结果是从视觉上“想象”出来的,而 VIN 则是根据物体彼此之间的基本关系演化推断出的。
左边是真实结果(ground-truth),右边是 VIN 的预测。在连续大约 150 帧的视频中,VIN 给出了极为接近的模拟,这之后的预测结果从肉眼看来也算是合理的。来源:deepmind.com
VIN 由两大机制组成:一个视觉模块和一个现实推理模块(physical reasoning module)。结合在一起,VIN 的两大模块能够处理一段视觉场景,并且预测其中每个不同物体在现实物理规律下会发生的情况。
DeepMind 研究人员在各种不同的环境中测试了 VIN,包括弹跳台球、有弹簧连接的质体,以及行星引力系统。结果表明,VIN 可以准确预测物体在未来几百步(hundreds of steps)会发生的情况。
论文:视觉互动网络
作者在摘要中写道,只需一眼,人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。另一方面,来自工程、机器人和图形学的现代方法通常局限于狭窄的领域,需要直接测量底层状态(underlying state)。
我们提出了视觉互动网络(Visual Interaction Network,VIN),一个用于从原始视觉观察中学习物理系统动态机制的通用模型。
VIN 由基于卷积神经网络的感知前端(a,见上)和基于交互网络的动态预测器(b,见下)组成。通过联合训练,感知前端学会了将动态视觉场景解析为一组特殊的物体表征。动态预测器则通过计算物体之间的相互作用和力学关系,学习将这些状态向前推进,从而产生任意长度的预测物理轨迹。
作者发现,在只有 6 帧输入视频的情况下,VIN 可以生成各种物理系统中几百个时间步长的预测轨迹,而且这些轨迹都是准确的。
VIN 也可以应用于物体不可见的场景当中,从而根据可见物体预测不可见物体的未来状态,由此隐含地推断未知物体的质量。研究结果表明,感知模块和基于物体动态机制的预测模块引入的物体表征能够进行精确的动态预测。这项工作为复杂物理环境中,根据原始感官观察的输入,进行基于模型的决策和规划开辟了新的机会。
VIN 的架构示意图
新智元编译
来源:deepmind.com;arXiv.org
译者:文强
【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文,称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN,能够预测视觉场景中各个物体在未来几百步所处位置,另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN,可以“即插即用”,提升其他深度神经网络结构(如 CNN)关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明,RN 的总体推理正确率已经达到 95.5%,超越人类水平。
研究一:视觉互动网络 VIN,从原始视觉观察中学习真实物理机制的通用模型
首先看《视觉互动网络》(Visual Interaction Networks)。
DeepMind 官方博客中称,理解关系推理的一大关键因素是,预测未来一个真实场景中发生了什么。
只看一眼,人类不仅能够推断出物体接下来几秒钟、几分钟乃至更长时间所处的位置,还能够预测接下来发生了什么。
例如,对着墙踢一个球,大脑能够预测到球碰到墙以及接下来球和墙两者的走向:球会根据入射角度、速度反弹,而墙应该还会在那里不动。
这些预测虽然简单,但都是由一套复杂的认知系统所引导的。
由此,DeepMind 的相关研究人员开发了“视觉互动网络”(Visual Interaction Network,VIN),能够简单模拟大脑的推断系统。
VIN 能够根据几帧连续的视频,推断(infer)上面多个物体接下来所处的位置。
这与生成模型不同,生成模型生成的结果是从视觉上“想象”出来的,而 VIN 则是根据物体彼此之间的基本关系演化推断出的。
左边是真实结果(ground-truth),右边是 VIN 的预测。在连续大约 150 帧的视频中,VIN 给出了极为接近的模拟,这之后的预测结果从肉眼看来也算是合理的。来源:deepmind.com
VIN 由两大机制组成:一个视觉模块和一个现实推理模块(physical reasoning module)。结合在一起,VIN 的两大模块能够处理一段视觉场景,并且预测其中每个不同物体在现实物理规律下会发生的情况。
DeepMind 研究人员在各种不同的环境中测试了 VIN,包括弹跳台球、有弹簧连接的质体,以及行星引力系统。结果表明,VIN 可以准确预测物体在未来几百步(hundreds of steps)会发生的情况。
论文:视觉互动网络
作者在摘要中写道,只需一眼,人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。另一方面,来自工程、机器人和图形学的现代方法通常局限于狭窄的领域,需要直接测量底层状态(underlying state)。
我们提出了视觉互动网络(Visual Interaction Network,VIN),一个用于从原始视觉观察中学习物理系统动态机制的通用模型。
VIN 由基于卷积神经网络的感知前端(a,见上)和基于交互网络的动态预测器(b,见下)组成。通过联合训练,感知前端学会了将动态视觉场景解析为一组特殊的物体表征。动态预测器则通过计算物体之间的相互作用和力学关系,学习将这些状态向前推进,从而产生任意长度的预测物理轨迹。
作者发现,在只有 6 帧输入视频的情况下,VIN 可以生成各种物理系统中几百个时间步长的预测轨迹,而且这些轨迹都是准确的。
VIN 也可以应用于物体不可见的场景当中,从而根据可见物体预测不可见物体的未来状态,由此隐含地推断未知物体的质量。研究结果表明,感知模块和基于物体动态机制的预测模块引入的物体表征能够进行精确的动态预测。这项工作为复杂物理环境中,根据原始感官观察的输入,进行基于模型的决策和规划开辟了新的机会。
VIN 的架构示意图