例如,无人机驾驶员通过遥控操纵四转机,使用机载摄像头进行导航和着陆。 不习惯的飞行动力学、地形和网络时延可能使人类对该系统的控制面临一定的挑战。 解决这个问题的一个方法是训练自动代理,使其能够在不经过人工干预的情况下执行巡回和制图等任务。 如果明确指定了任务,并且代理可以观察到成功所需的所有信息,则此策略将正确运行。 遗憾的是,处理许多人类用户的实际应用程序无法满足这些条件。 用户的意图通常是代理无法直接访问的隐私信息,因此任务可能会变得复杂到用户无法准确定义的程度。 例如,飞行员可能想跟踪动物群等移动目标,在飞行中立即改变目标的优先顺序(例如想关注受伤的人)。 共享自动化通过结合用户输入和自动帮助解决了此问题。 也就是说,是为了加强人类的控制,而不是取代它。
盲视的自动驾驶飞行员(左),次优人类飞行员(中)和人类联合队(右)玩Lunar Lander游戏
背景
将人与机器智能结合到共享控制系统中的想法包括: 1949年Ray Goertz提出的主从驾驶员( Master-Slave Manipulator )、1969年Ralph Mosher提出的Hardiman外骨架,以及1980年Marvin man 在机器人技术、互动、人工智能等领域进行了数十年的研究后,人类操作员与遥控机器人的互动仍然是一个挑战。 回顾2015年DARPA机器人的挑战,在“提高机器人性能的最经济有效的研究领域是人与人的互动”这一DRC中,机器人的稳定性和性能的最大敌人是操作失误。 开发能够避免这种操作错误、克服错误的方法,对于实际的机器人来说是很重要的。 操作员在压力下犯错误,特别是在没有广泛训练和实践的现实情况下”。
共享自动化的一个研究课题是推断用户的目标,采取自动行动来实现,解决这个问题。 Shervin Javdani博士在其论文中对以往的研究方法作了出色的评论。 这些方法在更好的驾驶辅助、假肢的脑机界面和远程操作方面取得了进展,但通常需要了解世界。 更具体地说,描述(1)动态模型、预测给定环境下给定操作的结果的(2)用户可能具有的目标集、及(3)观察模型及给定目标用户的行为。 基于模型的共享自动算法适合于直接硬编码或学习域中知识的领域,但是具有未定义的目标和无法预测的用户行为的非结构化环境面临着挑战。 我们从另一个角度解决了这个问题,利用深度强化学习实现了无模型共享的自动化。
深度强化学习采用神经网络函数逼近处理高维、连续状态和动作空间中的维问题,最近通过从零开始训练自动代理进行视频游戏、在围棋比赛中打败人类世界冠军、控制机器人取得了显着成功。 我们已经采取了初步措施,回答了以下问题:深度强化学习有助于构建灵活实用的辅助系统吗?
电路中具有人类辅助的无模型强制学习
为了在最小预设下实现共享控制远程操作,我们设计了用于共享自动化的无模型深度强化学习算法。 重要理念是从环境观察和用户输入中学习端到端对端到代理行为的映射,任务报酬是唯一的监督形式。 从代理的角度来看,代理像是用户的行为是一种可微调的预策略以及能够产生观察结果的附加传感器,它能够隐含地解码用户的个人信息。 从用户的角度来看,代理的行为是自适应接口,从用户指令到实现任务报酬最大化的操作的个性化映射。
这项研究的核心挑战之一是采用标准深度强化学习技术,利用人类的控制输入,不会干扰用户的反馈控制电路,也不会在长时间的训练期间感到疲劳。 为了解决这些问题,可以使用深度Q-学习近似状态行为值函数,该函数根据当前环境中的观察和用户输入来计算行为的未来返回值。 在安装了这个数值函数时,辅助代理对用户的控制输入执行最接近的高值操作。 代理的报酬函数是用于计算每个状态的已知术语和用户在任务成功或失败时提供的终端报酬的组合。 有关此过程的概述,请参见下图。
在无模型共享自动化中,我们的电路中有人类支持的深度q学习算法的概要
由学会补助
以往的研究将共享自动化形式化为部分可观察的马尔可夫决策过程( POMDP ),其中用户的目标对于代理是未知的,必须进行推论以完成任务。 当前方法倾向于假定POMDP的下一个配置部分是预先已知的: (1)环境动态或状态转移分布(2)一组可能的用户目标,或者目标空间(3)针对给定目标的用户控制策略或者用户模型。 在我们的研究中,我们放宽了这三个标准假设。 我们引入了没有模型的深度强化学习方法,可以在不了解这些知识的情况下提供帮助,但也可以了解用户模型和目标空间。
具有用户控制的q学习
用电路进行无模型强化学习存在(1)维持信息丰富的用户输入,(2)使与环境的交互次数最小化的课题。 如果用户输入是建议控件,则忽略建议并采取各种行动可能会降低用户输入的质量。 这是因为人类依赖于用户的行为反馈来执行实时控制任务。 一般的策略算法(如TRPO )很难在此环境中部署,因为它不能保证忽略用户输入的频率。 倾向于需要与环境的相互作用,对人类用户来说不现实。 在这两个标准的启发下,我们转向了深入的Q-学习。
q -学习是一种关闭策略算法,修改策略以在给出期望的返回和用户输入时选择行为以解决方案(1)的问题。 由于最近的并联自动化和外部电路稳定化研究发现的最小干扰原则,我们执行了最接近用户建议的可行操作,其中,一个操作不比最佳操作差得多,那个操作就可以执行。
考虑(2)可知,与基于政策梯度和蒙特卡罗值的方法相比,off-policy Q-learning有样本效率更高的倾向。 当用户接近最佳时,我们的行动策略结构也加快了学习速度:对于适当大小的α,代理学会对用户策略进行了微调,学习不是从零开始执行任务。 在实践中,这意味着在学习的初期阶段,组合人机队至少能够和没有辅助人的执行能力一样好,在随机战略的层面上实行。
用户研究
我们将我们的方法应用于两个实时辅助控制问题:月球着陆游戏( Lunar Lander game )和四旋翼着陆任务( Quadrotor Landing Task )。 这两个任务是利用离散动作空间和低维状态观测(包括位置、方向、速度信息)来控制运动。 在这两项任务中,人类飞行员拥有完成任务所需的个人信息,但他们不能独自完成任务。
登月游戏
比赛的目的是操作一台主引擎和两台侧推进器,使飞船在旗帜之间着陆,而不会发生冲突或出局。 辅助副驾驶员可以看到着陆器的位置、方向和速度,但是看不到旗子的位置。
人类飞行员(单独操纵):人类飞行员不稳定,继续失败
飞行员+RL副驾驶座:副驾驶座提高了稳定性,能够充分把握驾驶员在旗帜之间着陆
几乎没有人能单独玩月球着陆游戏,但当助手席参加时,他们表现得很好。
图2.a:30次以上的平均成功率和失败率
图2.b-c :前后图表示月球着陆游戏中没有副驾驶席和副驾驶席的情况下的人的飞行员追踪轨迹。 红色轨迹表示冲突或出局,绿色表示任务成功,否则以灰色轨迹表示。 中间的星号代表着着陆平台。 为了简化说明,仅显示左侧边界的着陆点数据
在使用综合试验模型进行的仿真实验(此处未显示)中,还发现了明确测量目标(着陆平台的位置)的优点。 这表明应该利用目标空间和用户模型而不是简单地将用户的原始控制输入添加到代理的观测结果中。
经过分析,月球着陆游戏的缺点之一是游戏界面和物理性不能反映在现实世界中,机器人共享自动任务的复杂性和不可预测性。 为了在更现实的环境中评价我们的方法,我们为驾驶实际四旋翼飞机的人类飞行员定制了任务。
四旋翼着陆任务
此任务的目的是使Parrot AR-Drone 2无人机在距离起飞点一定距离的小型方形着陆平台上着陆,以防止无人机的第一人称视点朝向环境中的随机目标(例如红椅)飞出边界或耗尽时间。 飞行员应用键盘控制飞行速度,阻止获得第三方视点,依靠无人机的第一人称视点进行导航和着陆。 副驾驶座可以观察无人机的位置、方向和速度,但飞行员不知道想看哪个目标。
人类飞行员(单独操纵):飞行员的显示屏只显示无人机的第一视点,摄像头的方向容易控制,但找到着陆台很困难
飞行员+RL副驾驶座:副驾驶座不知道飞行员将摄像头指向哪里,但是由于知道着陆平台在哪里,所以飞行员和副驾驶座协作完成了任务
我们发现,在限制时间的同时,很难将摄像头指向目标场景,准确引导至可行的着陆平台。 辅助副驾驶员在着陆平台上着陆几乎不困难,但是不知道将相机朝向哪里。 不知道人类着陆后想观察什么。 因此,人类飞行员可以把精力用在相机瞄准上,操纵员可以关注着陆平台的正确着陆,协助完成任务。
图3a.20次以上实验的平均成功率和失败率
图3b-c .前后两幅图分别表示在四旋翼着陆任务中没有副驾驶席和副驾驶席时的人类飞行员的飞行轨迹的鸟瞰图。 红色轨迹表示任务以碰撞或出局结束,绿色轨迹表示任务成功,否则以灰色轨迹表示。 中间的星号代表着着陆平台
我们的研究结果表明,飞行员与副驾驶员合作完成任务的情况优于单个飞行员或单个副驾驶员完成任务的情况。
接下来怎么办?
我们的方法存在主要缺点:无模型深度强化学习通常需要大量的训练数据,对于操作物理机器人的人类用户来说是负担。 在实验中,我们通过在模拟环境中训练助手座位,而无需人工飞行员的干预,在一定程度上解决了这个问题。 遗憾的是,建立高保真度模拟器和与用户无关的奖励函数Rgeneral是困难的,因此在实践中并不总是可能的。 目前,我们正在寻找解决这个问题的办法。