模拟中机器人通过探索观察和吸取经验教训来穿越新环境

2021-04-08 06:59:26 来源：用户：

当人群穿过人群达到最终目标时，人们通常可以安全地驾驶空间而不必过多考虑。他们可以从他人的行为中学习，并注意要避免的任何障碍。另一方面，机器人与这种导航概念斗争。

麻省理工学院的研究人员现在已经设计出一种方法来帮助机器人驾驶环境，就像人类一样。他们新颖的运动规划模型让机器人通过探索环境，观察其他代理人以及利用他们在类似情况下学到的知识来确定如何达到目标。在本周的IEEE / RSJ智能机器人和系统国际会议(IROS)上发表了描述该模型的论文。

流行的运动规划算法将创建一个可能的决策树，分支出来直到找到良好的导航路径。例如，需要导航房间到达门的机器人将创建可能移动的逐步搜索树，然后考虑各种约束来执行到门的最佳路径。然而，一个缺点是这些算法很少学习：机器人无法利用有关他们或其他代理人之前在类似环境中如何行动的信息。

“就像在下棋时一样，这些决定一直延伸到[机器人]找到一个好的导航方式。但与国际象棋选手不同，[机器人]探索未来的样子而不了解他们的环境和其他代理人，”共同作者，麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究员，以及麻省理工学院麦戈文研究所的脑，脑与机器中心(CBMM)的研究员Andrei Barbu。“他们经历同一群人的第一千次就像第一次一样复杂。他们总是在探索，很少观察，也从不使用过去发生过的事情。”

研究人员开发了一种模型，该模型将规划算法与神经网络相结合，学习识别可以产生最佳结果的路径，并利用这些知识指导机器人在环境中的运动。

在他们的论文“用于基于抽样的计划的深度序列模型”中，研究人员在两种情况下展示了他们模型的优势：在具有陷阱和狭窄通道的挑战性房间中导航，以及在避免与其他代理人碰撞的同时导航区域。一个有前途的实际应用程序正在帮助自动驾驶汽车导航交叉路口，他们必须在合并到交通之前快速评估其他人将要做的事情。研究人员目前正在通过Toyota-CSAIL联合研究中心进行此类应用。

“当人类与世界互动时，我们会看到一个我们之前与之互动的对象，或者我们以前曾经去过的某个地方，所以我们知道我们将如何行动，”Yen-Ling Kuo说道， CSAIL博士和论文第一作者。“这项工作背后的想法是在搜索领域增加一个机器学习模型，该模型从过去的经验中了解如何提高规划效率。”

Boris Katz是CSAIL的首席研究科学家和InfoLab Group的负责人，也是该论文的共同作者。

权衡勘探和exploitatio ñ

传统的运动规划师通过快速扩展最终覆盖整个空间的决策树来探索环境。然后机器人查看树以找到到达目标的方式，例如门。然而，研究人员的模型提供了“在探索世界和利用过去的知识之间进行权衡”，Kuo说。

学习过程从几个例子开始。使用该模型的机器人通过几种方式进行训练以导航类似的环境。神经网络通过解释机器人周围的环境来学习使这些例子成功的原因，例如墙壁的形状，其他代理人的行为以及目标的特征。简而言之，该模型“得知当你被困在一个环境中，并且你看到一个门口时，通过门出去可能是一个好主意，”巴布说。

该模型将早期方法的探索行为与此学习信息相结合。基础规划师名为RRT *，由麻省理工学院教授Sertac Karaman和Emilio Frazzoli开发。(它是广泛使用的运动规划算法的一种变体，称为快速探索随机树或RRT。)规划器创建一个搜索树，而神经网络镜像每个步骤，并对机器人应该下一步的位置进行概率预测。当网络以高可信度进行预测时，基于学习的信息，它引导机器人进入新的路径。如果网络没有很高的可信度，那么它就可以让机器人探索环境，就像传统的计划者一样。

例如，研究人员在称为“虫陷阱”的模拟中展示了该模型，其中2-D机器人必须通过中央狭窄通道从内腔逃离并到达周围较大房间的位置。通道两侧的盲目盟友可以让机器人卡住。在这个模拟中，机器人接受了一些如何逃避不同的陷阱的训练。当面对一个新陷阱时，它会识别陷阱的特征，逃脱，并继续在较大的房间中搜索其目标。神经网络帮助机器人找到陷阱的出口，识别死角，并让机器人感知周围环境，以便快速找到目标。

本文中的结果基于在一段时间后找到路径的机会，达到给定目标的路径的总长度以及路径的一致性。在这两种模拟中，研究人员的模型更快速地绘制了比传统规划者更短且更一致的路径。

使用多个代理

在另一项实验中，研究人员在具有多个移动代理的导航环境中训练和测试了该模型，这对于自动驾驶汽车尤其是导航交叉路口和环形交叉路口是一种有用的测试。在模拟中，有几个特工围绕着一个障碍物。机器人代理必须成功导航其他代理，避免碰撞，并到达目标位置，例如环形交叉口的出口。

“像环形交叉路口这样的情况很难，因为他们需要推理其他人如何回应你的行为，然后你将如何回应他们的行为，接下来会做什么，等等，”巴布说。“你最终发现你的第一个行动是错误的，因为稍后它会导致可能发生的事故。这个问题会越多，你需要应对的汽车就会越来越多。”

结果表明，研究人员的模型可以捕获关于其他代理人(汽车)未来行为的足够信息，以便尽早切断过程，同时仍然在导航中做出正确的决定。这使计划更有效率。此外，他们只需要在几个只有几辆车的环形交叉口的例子上训练模型。“机器人制定的计划考虑到了其他车辆将会做什么，就像任何人一样，”巴布说。

穿越十字路口或环形交叉路口是自动驾驶汽车面临的最具挑战性的场景之一。据研究人员称，这项工作可能有一天会让汽车了解人类的行为以及如何适应不同环境中的驾驶员。这是丰田 - CSAIL联合研究中心工作的重点。

“不是每个人的行为方式都相同，但人们都是陈规定型的。有些人害羞，有些人很有侵略性。模特很快意识到这一点，这就是为什么它可以有效规划，”巴布说。

最近，研究人员一直将这项工作应用于机械手，这些机械手在不断变化的环境中接触物体时面临同样严峻的挑战。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！