学界 | UC伯克利大学 Anca Dragan CoRL 演讲解读：机器人与人类如何相互影响及更好协作？

AI科技评论 · 公众号 · AI · 2017-11-20 14:53

正文

AI科技评论按：本文为近日召开的CoRL 2017大会上，MIT TR 35得主、UC Berkeley助理教授 Anca Dragan 所做的演讲整理，AI科技评论作为受邀媒体参加了CoRL大会，并与Anca Dragan进行了交流。

Anca Dragan现任UC Berkeley的电子工程与计算机科学助理教授及InterACT实验室主任。

为了令机器人更好地协同人类工作，Anca Dragan带领InterACT实验室开始专注于人机交互算法的研究，试图将复杂或模糊的人类行为转化为机器人能理解的简易数学模型，通过建立博弈理论和动力系统理论，聚焦于发现或学习人类行为模型，并计算连续状态和行动空间。

MIT科技评论给她评的奖项为“远见者”，称“她致力于确保机器人与人类可以和谐地共同生活”。在获奖报道中，Anca Dragan表示：

当人们试图与机器人共事时，许多冲突都来自于双方对彼此的不了解，如果机器人能够理解它可能对人类情绪造成的影响，就有望解决这一问题。

Anca Dragan认为，机器人与人工智能的正确观点应该是机器人试图优化人的目标函数。机器人不应该将任何客观的功能视为理所当然，而应该与人类一起去发现他们真正想要的是什么。该研究在短期之内最重要的应用莫过于帮助自动驾驶汽车与传统汽车预判对方可能的行为。

在演讲中，Anca Dragan也多次提到了这一点。以下即为AI科技评论整理的演讲内容摘要：

Anca Dragan的PPT题目为《人类进入机器人方程》。在传统的机器人路径规划问题中，机器人通常将人类视为和其他不能移动的物体一样的避障目标，而Anca希望将人类作为机器人决策的一个“变量”实现和人类的最优交互。

最简单的状态，只有机器人和交互的物体，则机器人的效用函数为U_R，该效用函数包含的变量包括初始状态x₀以及运动轨迹u_R。

但现实中，机器人需要和三类不同的人打交道：在运行环境中的其他人、其使用者，以及其设计者。

出于安全的考虑，以往通常将人视为机器人行动和路线规划中需要避让的“障碍物”；

但在人类交互当中往往存在某种博弈行为，如这个超车变道的例子，黑色小车意图超车，但银色卡车寸步不让。如果我们与他人的交互都像这个司机一样，则会造成许多冲突，但无人驾驶车不会像小汽车司机这样做，他们会感知到这里可能没有足够的超车空间，会选择减速在卡车后变道；

如果我们将人视为需要规避的障碍物进行建模，那意味着我们将人类视为这个例子中不会改变主意的卡车司机一样进行建模。

另一个Google Car无法顺利通过四面都有停车标志的十字路口的例子。在这个例子中，传感器会一直探测到有人类司机并进行避让，而人类司机可以通过一寸一寸向前挪动让Google无法行动。

漫画：“你先走还是我先走？”在图中，无人车让人类先走，但行人并不打算走而是挥舞手臂，则会让无人车困惑。

机器人与人类的互动。此时机器人的效用函数U_R包含三个变量：初始状态x_0、机器人运动轨迹u_R以及人类运动轨迹u_H，此时人类的效用函数U_H也包含三个变量：初始状态x₀、人类运动轨迹u_H以及觉察到有机器人后的隐形影响因子θ_H；

我们现在在做的研究：人并不是障碍，而是将其视为需要通过自己效用函数进行优化的智能体，但我们并不知道其效用函数，参数是隐藏的；机器通过人的动作估计隐藏状态，估计其下一步行为，如果机器人对人的下一步动作有估计，那么机器人会将其加入到自己的效用函数中：如果这件事情发生，我应该怎么做才是最好的选择。

Anca 6年前做的研究，与人类内部状态的相互作用，机器预测我要做什么，并帮我更好实现目标。

以及最近的Paper。

当人类也考虑机器人的行为来调整自己的行为时，其效用函数U_H变为四个变量：初始状态x₀、人类运动轨迹u_H、机器人运动轨迹U_R及觉察到有机器人后的隐形影响因子θ_H。有不少证据表明人们实际上并不一定去在博弈中实现均衡，因为人类是通过计算达到平衡的。

我们如何说明机器人对人类行为的影响？

例如，在这个轨道车的例子中，你的效用函数和你如何动操作杆有关；

再看一个无人车与人类司机交互的例子。上图中的橙色汽车是无人驾驶车，U_R是无人驾驶车轨迹，U_H是人类驾驶轨迹，如果我们考虑的是在特定的U_R下，U_H应该如何达到最优，这样人类可以更好地响应机器人的行为。

在这个例子中，这是一个保证效率和安全的博弈。人类的参数是隐藏的，我们通过反向优化控制来猜测这些数据，机器人收集这些展示人们将如何与机器人互动的数据，设置一个最大似然观察，然后机器人去解决这个嵌套优化问题，即当人不可避免地受到我所做的事情的影响时，我该怎么做才能最大限度地将我的效用最大化？最终会达到人和机器人的和谐协作。