—— 汽车产业链供需平台 ——
首页 > 资讯 > 新技术 > MIT发明新方法 可使AI代理考虑更长远

MIT发明新方法 可使AI代理考虑更长远

盖世汽车 刘丽婷 2022-11-24 18:34:33

盖世汽车讯 创建可以像人类一样有效地学习竞争和合作的人工智能代理仍然很难。关键挑战在于让AI代理能够预测其他代理的未来行为,同时都在学习。而目前的方法都较为短视,代理只能猜测队友或竞争对手接下来的几步,无法从长远考量,从而导致性能不佳。

据外媒报道,来自麻省理工学院(MIT)、MIT -IBM沃森人工智能实验室(Watson AI Lab)和其他机构的研究人员开发出新方法,可为人工智能代理提供有远见的视角。该机器学习框架使合作或竞争的人工智能代理能够考虑其他代理在长远未来(接近无穷)的行为,而非仅仅接下来几个步骤。然后代理会相应地调整行为以影响其他代理的未来行为,并得出最佳的长期解决方案。

新系统.jpg

图片来源:MIT

一组自动无人机可以使用这个框架协同工作,例如在茂密的森林中寻找迷路的徒步旅行者,或者自动驾驶汽车在高速公路上行驶,且可通过预测其他车辆的未来移动保护乘员安全。

MIT信息和决策系统实验室(LIDS)研究生、论文主要作者Dong-Ki Kim表示:“当AI代理合作或竞争时,最重要的是它们的行为何时会在未来的某个时刻相遇。沿途有很多短暂的行为,从长远来看并不重要,但相遇非常重要。我们现在有一种数学方法可预测相遇。”

更多代理,更多问题

研究人员专注于一个称为多代理强化学习的问题。强化学习是机器学习的一种形式,AI代理通过反复试验来学习。研究人员会因实现目标的“良好”行为奖励代理。代理会调整其行为以最大化奖励,直到它最终成为某项任务的专家。

但是当许多合作或竞争代理同时学习时,事情就会变得越来越复杂。随着代理需要考虑更多其他代理的未来行为,以及自身行为如何影响他人,因此需要更多计算能力。


视频来源:MIT

Kim表示:“人工智能真的很想考虑游戏的结束,但他们不知道游戏什么时候结束。他们需要考虑如何不断调整自己的行为,以便在未来的某个遥远的时间获胜。我们的论文本质上提出了一个新的目标,使人工智能能够思考地更远(至无穷)。”

但是由于不可能将无穷插入算法中,研究人员设计出新系统,使代理专注于自身行为与其他代理行为相遇的未来点,即均衡点。一个均衡点决定了代理的长期表现,多代理场景中可以存在多重均衡。

因此,一个有效的代理会积极影响其他代理的未来行为,从而使他们从代理的角度来看达到理想的平衡。如果所有代理都相互影响,他们就会相遇达成一个一般概念,研究人员将其称之为“主动均衡”。

研究人员开发的机器学习框架被称为FURTHER(代表通过平均奖励充分加强主动影响,FUlly Reinforcing acTive influence witH averagE Reward),使代理能够学习如何在与其他代理交互时调整自己的行为以实现这种主动均衡。

FURTHER使用两个机器学习模块来做到这一点。第一个是推理模块,它使代理能够仅根据其他代理的先前行为来猜测其他代理的未来行为以及他们使用的学习算法。

然后信息被输入强化学习模块,代理使用该模块调整其行为,并以最大化其奖励的方式以影响其他代理。

研究人员在几种不同的场景中针对其他多智能体强化学习框架测试了新方法,包括一对机器人进行相扑式战斗,以及一场让两组拥有25个代理的团队相互对抗的战斗。在这两种情况下,使用FURTHER AI代理的胜率更高。

Kim解释说,由于新方法采用分散管理,这意味着代理学会独立赢得比赛。因此新方法比其他需要中央计算机控制代理的方法更具可扩展性。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。