MIT提出掩码逆强化学习算法 利用大模型赋能机器人
盖世汽车讯 设想在不久的将来,工作人员在仓库或办公室带一名新员工熟悉岗位,而这名新人是一台机器人。想要教会它工作,工作人员可以采用“边演示边讲解”的教学方式:实操演示多种作业方式,同步口述操作要点。
举例来说,工作人员让机器人把咖啡放到桌上,不能打扰正在线上开会的同事。工作人员希望机器人远离自己和笔记本电脑,避免打断会议。想要实现该效果,需要用完整任务数据训练机器人。以往科研人员要么录制大量实操演示,要么撰写详尽操作说明来教会机器人完成抓取作业;一旦缺少足量演示样本或详细文字指引,机器人极易误解任务要求。
对人类而言,这种“演示加讲解”的过程相当费时费力。据外媒报道,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory, CSAIL)的研究团队实现了一种机器人教学自动化方案,这套方案可自动完善模糊指令,且所需演示数据减少了近五分之四。
研究提出掩码逆强化学习(Masked IRL)算法:依托首个大语言模型,结合人工演示数据补全语义含糊的指令;再由另一套大模型筛选关键信息,敲定需要写入运动规划的细节,让机器人能够在家庭、办公室、工厂环境中安全完成各类作业。

图片来源:MIT CSAIL
论文第一作者、麻省理工博士生兼CSAIL研究员Minyoung Hwang表示:“人类和机器人交互时,很少把任务所有细节逐一讲明,我们的算法恰好适配这类场景。该技术让机器读懂用户潜在诉求,大幅节省人工教导成本。”相关论文已上传至arXiv预印本平台,团队将于6月在奥地利维也纳举办的2026年IEEE国际机器人与自动化大会(ICRA 2026)上发布该项研究成果。
Minyoung Hwang介绍,Masked IRL能够帮助机器人在某些环境中安全移动;在这些环境中,存在一些人类可能不会在指令中明确提及、但对任务至关重要的要素。例如,一台从厨房为您取零食的机器可能不知道需要避开您的笔记本电脑;同样,工厂里负责将物品放入不同箱子的机器人也必须小心地绕过货架进行移动。
为了在这些情境下学习新任务,Masked IRL利用机器人的传感器来捕捉周围环境的信息。这些组件还会记录“动觉演示”(kinesthetic demonstration)过程中的每一个动作——这是一种训练方法,即由人类亲自移动机器人来执行特定动作。这有点像担任机器人的物理治疗师:通过向特定方向弯曲关节,向机器人展示如何抓取、移动和放置物体。
随后, MIT开发的这套系统会调用大语言模型(LLM),将这一动作序列(称为“轨迹”)与理论上的最短路径进行比较。该模型还能进一步阐明指令中可能模糊不清之处,例如将“保持靠近”这样的请求具体化为“保持靠近桌面”。通过轨迹比较和明确后的指令,大语言模型开始理解为何训练中所涉及的动作对任务至关重要。
接着,第二个大语言模型会评估环境细节,例如障碍物的位置和机器人目标物体的形状。在此过程中,它会“掩蔽”(即忽略)那些被视为与当前任务无关的要素,并为每个要素打分:“1”代表重要,“0”代表不太重要。例如,在演示过程中用户是否倚靠在桌子上会被标记为“0”,从而被视为无关信息。任何被评为“1”的细节都会由算法纳入最终的行动方案中。
“掩蔽”背后的机制
这种“掩蔽”机制赋予了Masked IRL相比同类基准方法的一项关键优势——无论是在3D模拟还是现实世界的演示中——因为它教会了机器人该优先关注哪些信息。得益于MIT的这套系统,无论是虚拟机器人还是实体机器人,都能熟练地操控物体绕过障碍物,例如将咖啡杯绕过笔记本电脑,移动到桌面的不同位置。在这些任务中,与同类基准方法相比,Masked IRL能够更准确地识别出用户未在提示词中明确表达的偏好,准确率高出多达 15%。
在仿真实验中,CSAIL的研究人员还发现Masked IRL具有快速学习的能力;相比基准方法,它仅需较少的演示样本就能掌握如何移动马克杯。此外,研究人员发现,若由大语言模型(LLM)先对指令进行澄清,而非让机器直接尝试执行模糊的请求,机器人的表现会更出色。
这套精准筛选信息的方案落地实体机械臂同样表现优异,能够完成训练阶段从未接触过的指令。仅经过50次手动示教后,收到笼统指令“保持距离”,机器人就能自主解读规则、避开电脑,平稳把水杯递向用户;接到“贴近台面”的要求时紧贴桌面完成擦拭;收到递送薯片的指令后,同时避开人体与桌体完成交付。
Masked IRL能够感知并解读用户未言明的信息,而未来它甚至可能具备“看见”这些信息的能力。CSAIL的研究人员计划通过加装摄像头来增强该方法的动态适应性,使机器人能够拍摄周围环境的图像。这样一来,机器人便能识别并专注于附近的特定物体。例如,当你要求它捡起一件玩具时,它可能会看到附近的香蕉,但在处理目标物体前会将其忽略。
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车





