为了训练协商机器人和进行大规模的定量评估,FAIR团队协作收集了一系列人与人之间的谈判记录。这些人被展示了一组物品和每个物品的价值,每两个人要讨论决定,要怎么划分这些物品。然后研究人员训练一个递归的神经网络,通过教它模仿人们的行为来进行谈判。在对话框中的任何点,模型都试图猜测人类在这种情况下会说什么。
不同于先前针对目标对话框的工作,这些模型被训练成“端到端”,完全是由人类所做的语言和决定所决定的,这意味着这种方法可以很容易地适应其他任务。
为了超越简单地模仿人们,FAIR研究人员允许模型来实现谈判的目标。为了训练模型实现其目标,研究人员让模型进行了数千次的自我谈判,并使用强化学习算法,当它取得好的结果时给予奖励。为了防止算法开发自己的语言,它也同时训练模型产生人类语言。
为了评估谈判机器人,FAIR团队测试他们在网上与人交谈。大多数以前的工作避免与真实的人对话或在较不具挑战性的领域工作,因为学习模型要响应人们所说的各种语言非常困难。
有趣的是,在FAIR团队的实验中,大多数人没有意识到他们是在与机器人交谈,而不是与另一个人交谈,这表明机器人已经学会在这个领域用英语进行流利的对话。FAIR团队最好的谈判机器人,使用强化学习和对话的推出,其性能已经可以和人类谈判相媲美。它取得了更好的交易的频率,等同于更糟的交易的频率,表明FAIR的机器人不仅可以说英语,也可以聪明地决定想说什么。