全新AI视觉系统可提高自动驾驶安全性

财经

2021

12/14

10:44

亚设网

众所周知，计算机视觉系统有时会对与常识相悖的场景进行推断。例如，如果机器人正在处理餐桌的场景，它可能会完全忽略任何人类观察者都可以看到的碗，认为盘子漂浮在桌子上方，或者误认为叉子正在穿透碗而不是靠着它。

有鉴于此，如果将计算机视觉系统转移到自动驾驶汽车上，风险就会高得多。例如，这种系统无法检测到紧急车辆和过马路的行人。

为了克服这些错误，麻省理工学院（MIT）的研究人员使用概率编程开发了全新的人工智能视觉系统，帮助机器像人类一样看世界。人工智能能够让系统对检测到的物体与输入数据进行交叉检查，以查看摄像机记录的图像是否与任何候选场景可能匹配。概率推理允许系统推断出不匹配是否可能是由于噪声或场景解释中的错误导致的，需要通过进一步处理来纠正。

这种常识性的保护措施使系统能够检测并纠正许多困扰“深度学习”方法的错误。概率编程还可以推断场景中对象之间可能的接触关系，并使用关于这些接触的常识推理来推断对象的更准确位置。

“如果你不知道接触关系，那么你可以说一个物体漂浮在桌子上方——这将是一个有效的解释。作为人类，我们很明显知道这在物理上是不现实的，放在桌子顶部的物体更可能是物体的姿势。因为我们的推理系统知道这种知识，所以它可以推断出更准确的姿势。这是这项工作的一个关键见解。”该研究论文的主要作者Nishad Gothoskar说。

研究人员将这个AI视觉系统命名为“通过概率编程的3D场景感知（3DP3）”系统。为了分析场景的图像，3DP3首先了解该场景中的对象。在只显示物体的五张图像后，每张图像都是从不同的角度拍摄的，3DP3会学习物体的形状并估计它在空间中占据的体积。

“如果我从五个不同的角度向你展示一个对象，你可以很好地表示该对象。你会了解它的颜色、形状，并且能够在许多不同的场景中识别该物体。”Gothoskar说，“这比深度学习方法的数据要少得多。3DP3只需要每个对象几张图像，并报告每个对象形状部分的不确定性。”

3DP3系统会生成一个图形来表示场景，其中每个对象都是一个节点，连接节点的线表示哪些对象彼此接触。这使3DP3能够更准确地估计对象的排列方式。（深度学习方法依赖于深度图像来估计对象姿态，但这些方法不会产生接触关系的图结构，因此它们的估计不太准确。）

3DP3系统除了提高自动驾驶汽车的安全性外，还可以提高计算机感知系统的性能。例如负责清洁杂乱厨房的机器人。

未来，研究人员希望进一步推动该系统，使其能够从单个图像或电影中的单个帧中了解对象，然后能够在不同场景中稳健地检测该对象。

综合

（张泓杨）

THE END

AI 全新提高系统视觉

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。