冲田杏梨种子东谈主工智能筹商院杨耀东课题组提倡去中心化高效多智体强化学习轨范

发布日期：2024-10-06 03:52 点击次数：104

近日，北京大学东谈主工智能筹商院助理西宾杨耀东课题组及相助团队在东谈主工智能顶级学术期刊Nature Machine Intelligence上发表题为“Efficient and scalable reinforcement learning for large-scale network control”的论文。论文提倡的基于模子的去中心化计谋优化轨范赢得紧要冲突。这一收尾初度在多智能体系统中已矣了高效的去中心化协同考研和方案冲田杏梨种子，显耀擢升了东谈主工智能方案模子在大范围多智能体系统中的膨胀性和适用性。

图片 1.png

论文截图

在大范围多智能体系统中已矣高效的可膨胀方案是东谈主工智能领域发展的垂危设想之一。多智能系统主要以宏大的智能体交互数据为基础，诈欺多数狡计资源脱手每个智能体学习如何与其他智能体相助实行复杂任务，其中枢范式是多智能体强化学习。比年来，这一领域赢得了显耀的推崇，出身了以游戏东谈主工智能为代表的一系列应用。

现阶段两种主要的学习范式是中心化学习和落寞学习，中心化学习条款每个智能体齐具有全局不雅察智商，这大幅度加多了算法复杂性和通讯老本，镌汰了在大范围系统中的可膨胀性，而落寞学习诚然镌汰了系统和算法的复杂性，但学习经落后时不雄厚，导致方案性能较差。值得可贵的是，在游戏之外的愈加真正的场景中，齐存在一些客不雅的交互限制和不得不接头的老自己分，这使得现存轨范难以膨胀到大范围真正寰球多智能体系统中。一个浅近的例子是，当在城市交通系统中戒指交通讯号灯时，不时的大范围通讯操作容易加多功率损结怨被信号侵略的概率，况且狡计复杂性将跟着交通灯数目的增多而指数级加多。因此，有必要设想粗略在有限数据和客不雅通讯赓续下，将方案智商膨胀到包含多数智能体的复杂真正系统中的多智能体强化学习轨范。

这项筹商恰所以此为起点，镌汰了现存多智能体学习轨范对全局通讯和多数交互数据的依赖性，已矣了强化学习算法在复杂的大范围系统中的平凡部署与高效膨胀，朝着可膨胀到大范围系统的方案范式迈出了垂危一步。

妹妹五月天

图片 2.png

图1 中心化学习和落寞学习的分手及该筹商的起点和所触及到的蚁集化系统类型

在这项筹商中，筹商团队对大范围多智能体系统进行了以智能体为单元的能源学特点的解耦，将智能体之间的相关描画为一种拓扑运动结构下的蚁集化相关，其中包括线状、环状、网状等多样同构/异构节点，镌汰了系统责罚的复杂性。在此之前，也有一些筹商者以蚁集化的形势建模智能体之间的相关从而擢升算法膨胀性。但这种对系统的领会具有较强的假定，不一定适应真正寰球系统的特点。因此，团队进一步提倡了一种更通用的蚁集化系统模子用来描述解耦后多智能体系统的能源学和真正系统能源学之间的相关，其上风在于粗略责罚更平凡的相助多智能体任务。该看法弥合了圭臬蚁集系统和一般多代理系统之间的差距，为去中心化多智能体系统的筹商提供了必要的表面框架和分析器具。

图片 3.png

进一步，基于这种更一般化的蚁集系统，筹商团队将单智能体学习中的模子学习表面膨胀到多智能体系统中，使智能体粗略落寞学习局部状态袭击、邻域信息价值和去中心化计谋，将复杂的大范围方案烦懑滚动为更容易求解的优化问题。这么，大型东谈主工智能系统即使在样本数据和信拒却互受限的情况下，也能已矣令东谈主欢娱的方案性能。早在20世纪90年代，强化学习教父Richard Sutton就提倡了基于模子的轨范学习系统内在的动态特点来扶直计谋学习，擢升样本效力。在这项责任中，筹商团队将土产货化模子学习与去中心化计谋优化相耦合，提倡了一个基于模子的去中心化计谋优化轨范。该轨范是高效且可膨胀的，在较小的土产货信息大小（当单个智能体与其他智能体之间的信拒却互受到限制）下就能类似单调地擢升智能体计谋。具体而言，智能体粗略使用经过充分考研得到的土产货化模子来计划往常状态，并使用土产货通讯来传递该计划。

图片 4.png

图2 多智能体模子学习经过

为了缓解模子计划的舛讹问题，筹商团队罗致了分支推出计谋，用好多短时辰线推出替换了少数永劫辰线推出，以减少模子学习和计划中的复合舛讹，促进了计谋学习经过中的类似单调擢升智商：

图片 5.png

筹商团队从表面上进一步确认了系统解耦后所产生的膨胀值函数和计谋梯度是接近真正梯度的类似值，这在去中心化模子学习和单调计谋擢升之间培植了垂危的表面桥梁。

图片 6.png

图片 7.png

多项测试收尾标明，该轨范粗略膨胀到具终点百个智能体的大范围电网和交通等蚁集化系统中，在较低的通讯老本下已矣较高的方案性能。

图片 8.png

图3 筹商轨范在智能交通戒指场景中的效果

使用了该轨范戒指的信号灯粗略仅通过罗致相邻路口的车流信息调控复杂的交通流。这是因为在蚁集化结构的设想下，全体交通气象还是通过城市路网蜿蜒地传递并汇总到相邻路口，通过分析这些相邻路口的不雅测信息，就能揣摸和计划总共这个词城市的车流变化，从而作出最优方案。在智能电网上的效果也考据了轨范的可膨胀性，粗略在具有上百个节点的电力集聚合已矣较低的电能损耗。

图片 9.png

图4 筹商轨范在智能电网戒指场景中的效果

论文第一作家是北京大学东谈主工智能筹商院博士生马成栋冲田杏梨种子，通讯作家为杨耀东。工学院、东谈主工智能筹商院多智能体筹商中心筹商员李阿明和伦敦国王大学西宾杜雅丽为共同第一作家。

上一篇：冲田杏梨种子 “幼香帝国”的倾覆－郑州日报数字报

下一篇：波多野结衣肛交魔兽宇宙：活跃扮装2天高潮50W，国服开启最严禁令，强插径直封号|副本|游戏|pdd|奥杜尔

朴妮唛全集