工學院王龍課題組提出魯棒博弈動力學與控製的理論框架

博弈論是用來描述理性個體如何決策的數學工具，廣泛應用於經濟學、物理學、控製工程🎋、計算機科學、生物生態學等多個領域。1973年，Maynard Smith將群體動態演化的思想引入博弈論，創立了演化博弈論這一理論體系🐪。演化博弈論是研究群體行為的湧現，多智能體的交互與學習，群體的智能決策，合作行為的演化👍🏽，觀點傳播動力學等的有力工具。

在演化博弈論中⚂，博弈的信息是完全的、確定的，每個個體都知道其他所有個體的收益👮🏻‍♂️，進而可以學習收益較高的個體的策略，形成動態演化🫱🏽。然而🤦🏻‍♀️，在實際博弈交互過程中🦵🏿，由於不確定性以及各種幹擾、攝動的存在，個體並不能精確地知道其他每個個體的收益。在演化博弈中如何應對各種不確定性以及不確定性對演化動力學有何影響目前仍然是一個尚未探索的領域☝🏽。

在控製理論中，魯棒性（robustness）是指系統抵禦各種不確定性（如物理參數攝動👰🏼‍♀️、量測誤差、未建模動態🎊、環境變化、外部幹擾等）的能力。系統穩定性和魯棒性是保證控製系統正常運行的前提。在經濟學中💇🏿，對於不確定性的研究，其基本框架是由馮諾依曼和摩根斯坦等人提出的期望效用理論，用來描述完全理性的個體面對風險是如何決策的。其中每個個體具有自己主觀的效用函數，效用函數將物質收益映射為個體的主觀滿足程度🙅🏻。個體在作決策時總是會選擇可以使自己期望效用最大化的選項。而效用函數的凹凸性則反映了個體對於風險的偏好。凹的效用函數對應著風險厭惡（risk-averse），而凸的效用函數則對應著風險追逐（risk-seeking）🙆🏼‍♂️。

圖1 風險偏好可以改變演化動力學的類型

意昂3体育官网王龍課題組和上海交通大學蘇奇副教授🪿、美國賓夕法尼亞大學Plotkin教授合作🧑🏿‍🍼，建立了魯棒博弈動力學研究的理論框架和分析綜合方法🏋🏼。他們將期望效用理論與演化博弈論相結合🧑‍🦳，提出了系統具有不確定性和個體風險響應的博弈動力學模型和研究方法🚴🏻。在群體風險偏好固定的情況下🕵🏿‍♂️，他們發現👨‍👨‍👦，不確定性可以定性地改變系統的動力學行為。例如，原本為囚徒困境類型的博弈➝，在特定的不確定性結構下🍹，風險厭惡的群體可以使得演化動力學行為變為和Stag Hunt博弈相同👄，而風險追逐的群體可以使得演化動力學具有Snowdrift博弈的特性（如圖1）👨🏼‍🎓。此外，對於適應性風險偏好的情形（即當個體獲得較高收益時，個體以高概率變得更加風險追逐🦸🏻‍♂️；當個體獲得較低收益時🤷‍♀️，個體以高概率變得更加風險厭惡），他們研究了策略和風險偏好的共演化動力學，發現在囚徒困境中，合作者比例和風險厭惡者比例會出現持續性周期震蕩（穩定的極限環）（如圖2）🌪🧘。進一步地🐗，他們給出了囚徒困境下🥣，極限環存在的數學條件，還分析了其它類型博弈中的震蕩現象，發現系統可能同時在多個區域出現震蕩現象。

圖2 適應性風險偏好可以產生周期震蕩

該工作表明🧑🏼‍💻🆕，不確定性以及個體對不不確定性的應對方式對於系統的演化動力學具有重要影響，可以產生（相比於確定性情形）復雜得多的動力學行為。這對於群體行為的復雜性與調控、多智能體的交互學習與合作、群體智能的湧現都具有重要意義🌦。

上述研究成果以“The evolution of social behaviors and risk preferences in settings with uncertainty”為題近期發表於《美國科學院院刊》（PNAS）上🐎。意昂3体育官网工學院2020級博士生王國丞為第一作者🪥，王龍、蘇奇和Joshua Plotkin為通訊作者。

工學院王龍課題組提出魯棒博弈動力學與控製的理論框架

最新新聞

最熱新聞

專題熱點

工學院王龍課題組提出魯棒博弈動力學與控製的理論框架

最新新聞

最熱新聞

專題熱點

熱詞搜索