人工智能研究院楊耀東課題組提出去中心化高效多智體強化學習方法

近日👨🏻‍🏫,意昂3体育官网人工智能研究院助理教授楊耀東課題組及合作團隊在人工智能頂級學術期刊Nature Machine Intelligence上發表題為“Efficient and scalable reinforcement learning for large-scale network control”的論文🌼。論文提出的基於模型的去中心化策略優化方法取得重大突破。這一成果首次在多智能體系統中實現了高效的去中心化協同訓練和決策🤱🏽,顯著提升了人工智能決策模型在大規模多智能體系統中的擴展性和適用性。

圖片 1.png

論文截圖

在大規模多智能體系統中實現高效的可擴展決策是人工智能領域發展的重要目標之一🪽。多智能系統主要以龐大的智能體交互數據為基礎,利用大量計算資源驅動每個智能體學習如何與其他智能體合作執行復雜任務👩🏿‍🌾,其核心範式是多智能體強化學習🌲🤵🏽‍♂️。近年來,這一領域取得了顯著的進展,誕生了以遊戲人工智能為代表的一系列應用。

現階段兩種主要的學習範式是中心化學習和獨立學習,中心化學習要求每個智能體都具有全局觀察能力,這大幅度增加了算法復雜性和通信成本,降低了在大規模系統中的可擴展性,而獨立學習雖然降低了系統和算法的復雜性,但學習過程往往不穩定,導致決策性能較差🐚。值得註意的是,在遊戲以外的更加真實的場景中,都存在一些客觀的交互限製和不得不考慮的成本因素👇🏻,這使得現有方法難以擴展到大規模真實世界多智能體系統中。一個簡單的例子是,當在城市交通系統中控製交通信號燈時🚆,頻繁的大規模通信操作容易增加功率損失和被信號幹擾的概率🎏,並且計算復雜性將隨著交通燈數量的增多而指數級增加♥︎。因此🧙🏻‍♂️,有必要設計能夠在有限數據和客觀通信約束下🙎🏻‍♀️,將決策能力擴展到包含大量智能體的復雜真實系統中的多智能體強化學習方法。

這項研究正是以此為出發點,降低了現有多智能體學習方法對全局通信和大量交互數據的依賴性,實現了強化學習算法在復雜的大規模系統中的廣泛部署與高效擴展👩🏿‍⚖️,朝著可擴展到大規模系統的決策範式邁出了重要一步。

圖片 2.png

圖1 中心化學習和獨立學習的區別及該研究的出發點和所涉及到的網絡化系統類型

在這項研究中🔫,研究團隊對大規模多智能體系統進行了以智能體為單位的動力學特性的解耦,將智能體之間的關系描述為一種拓撲連接結構下的網絡化關系✋🏻,其中包括線狀🎳、環狀🤳🏼、網狀等各種同構/異構節點,降低了系統處理的復雜性。在此之前🔧,也有一些研究者以網絡化的形式建模智能體之間的關系從而提升算法擴展性。但這種對系統的分解具有較強的假設,不一定符合真實世界系統的特性。因此🚵🏼‍♀️,團隊進一步提出了一種更通用的網絡化系統模型用來刻畫解耦後多智能體系統的動力學和真實系統動力學之間的關系,其優勢在於能夠處理更廣泛的合作多智能體任務。該概念彌合了標準網絡系統和一般多代理系統之間的差距,為去中心化多智能體系統的研究提供了必要的理論框架和分析工具👨‍🎤。

圖片 3.png

進一步,基於這種更一般化的網絡系統,研究團隊將單智能體學習中的模型學習理論擴展到多智能體系統中,使智能體能夠獨立學習局部狀態轉移、鄰域信息價值和去中心化策略,將復雜的大規模決策難題轉化為更容易求解的優化問題🤙🏻。這樣,大型人工智能系統即使在樣本數據和信息交互受限的情況下,也能實現令人滿意的決策性能。早在20世紀90年代,強化學習教父Richard Sutton就提出了基於模型的方法學習系統內在的動態特性來輔助策略學習,提升樣本效率。在這項工作中,研究團隊將本地化模型學習與去中心化策略優化相耦合🍪,提出了一個基於模型的去中心化策略優化方法👨‍🌾。該方法是高效且可擴展的,在較小的本地信息大小(當單個智能體與其他智能體之間的信息交互受到限製)下就能近似單調地提升智能體策略。具體而言,智能體能夠使用經過充分訓練得到的本地化模型來預測未來狀態,並使用本地通信來傳遞該預測😑。

圖片 4.png

圖2 多智能體模型學習過程

為了緩解模型預測的誤差問題,研究團隊采用了分支推出策略,用許多短時間線推出替換了少數長時間線推出,以減少模型學習和預測中的復合誤差🧃,促進了策略學習過程中的近似單調提升能力:

圖片 5.png

研究團隊從理論上進一步證明了系統解耦後所產生的擴展值函數和策略梯度是接近真實梯度的近似值💆🏼,這在去中心化模型學習和單調策略提升之間建立了重要的理論橋梁。

圖片 6.png

圖片 7.png

多項測試結果表明,該方法能夠擴展到具有數百個智能體的大規模電網和交通等網絡化系統中,在較低的通信成本下實現較高的決策性能🦧。

圖片 8.png

圖3 研究方法在智能交通控製場景中的效果

使用了該方法控製的信號燈能夠僅通過接收相鄰路口的車流信息調控復雜的交通流🔷。這是因為在網絡化結構的設計下,整體交通狀況已經通過城市路網間接地傳遞並匯總到相鄰路口🤟,通過分析這些相鄰路口的觀測信息,就能推斷和預測整個城市的車流變化🏋🏽‍♀️,從而作出最優決策👱🏿。在智能電網上的效果也驗證了方法的可擴展性,能夠在具有上百個節點的電力網絡中實現較低的電能損耗。

圖片 9.png

圖4 研究方法在智能電網控製場景中的效果

論文第一作者是意昂3体育官网人工智能研究院博士生馬成棟👁‍🗨👩‍🦰,通訊作者為楊耀東。工學院👨‍👨‍👦、人工智能研究院多智能體研究中心研究員李阿明和倫敦國王大學教授杜雅麗為共同第一作者👐🏽。

轉載本網文章請註明出處

意昂3体育专业提供⇾:意昂3体育意昂3体育平台意昂3体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂3体育欢迎您。 意昂3体育官網xml地圖