深圳研究生院信息工程學院田永鴻、陳傑研究團隊AI4S新進展登《自然·機器智能》

2024年諾貝爾物理學獎和化學獎雙雙花落AI領域——前者突出“Science如何應用並改變AI”,後者強調“AI如何改變科學和人們的認知”😎,將AI for Science(AI4S)的研究熱度推上新高潮👩🏽,其在成為學界前沿趨勢的同時正在推動科學研究範式的變革6️⃣。信息工程學院田永鴻🧝🏿‍♀️👴🏻、陳傑團隊一直致力於推動AI for Science的發展,前期工作曾入圍2022年度戈登貝爾特別獎🧝‍♀️,與美國阿貢國家實驗室🗜、橡樹嶺國家實驗室團隊在世界舞臺上角逐這一超級計算機領域的國際最高獎項,團隊於眾多世界級頂尖強隊中脫穎而出名列前茅,展現出中國人工智能在計算集群和科研創新領域的全球頂尖水平🎋。除此之外🧔🏼,團隊先後獲得2023年度廣東省科學技術獎科技進步獎特等獎、首屆“祖沖之獎——人工智能前沿創新獎年度重大成果獎”以及國家數據局2024年“數據要素×”大賽廣東省一等獎、全國二等獎等榮譽🤹🏽‍♀️。1月17日,團隊聯合廣州國家實驗室周鵬研究員的AI4S研究新進展在《自然·機器智能》(Nature Machine Intelligence)上發表,再次展現AI助力自然科學研究範式革新的巨大潛力📞。

論文發表界面截圖

研究亮點:

(1)探討了如何定製化蛋白質語言模型以適配進化預測任務,提出了定製化預訓練策略和數據集,為蛋白質語言模型預訓練與下遊任務之間的權衡提供了研究新視角;

(2)從進化論角度凝練了病毒進化的兩大本質問題,從而通過“微弱突變放大”和“稀少有益突變挖掘”兩個創新設計實現了跨病毒類型和跨毒株類型的通用預測🎻,涵蓋新冠🐭、流感🦶🏿、寨卡和艾滋病病毒▫️,實現了Science和AI架構的高度融合🖐;

(3)突變所處相互作用網絡的全面重建模塊(包含動態粒度註意力機製以挖掘motif模式)以及提出的多任務焦點損失函數適用於蛋白質通用體系,具有進一步拓展用於各類蛋白質功能預測及蛋白質定向進化的可能;

(4)實現了不同尺度的病毒進化預測🫲🏻,未來可與疫苗和蛋白類藥物設計流程相結合,有望提升設計效率和設計可控度。

在自然界👍,物種多樣性與生物體內承載功能的蛋白質相互約束,這是因為蛋白質作為功能的載體決定了生物的性狀,而這些性狀經過選擇壓力篩選後形成了當下的物種多樣性分布結果🕊🦑。立足達爾文進化論及表觀遺傳學持續新研究的角度👨🏽‍💻🙍🏽‍♀️,生物演化與環境組成了復雜系統,是與環境的協同演化🧑🏼‍🚒。受此啟發,研究團隊基於進化論視角重新審視病毒進化預測難題,提出了解決病毒進化兩大本質問題的跨病毒類型🚎🤧、跨毒株類型的通用進化預測模型🧏⚁,為疫苗💇🏿、藥物的快速主動更新以及提高人類對於新發病毒感染的響應速度提供了強大工具®️,支撐和加速對於物種復雜進化機製的探索🙍🏿‍♂️。

突變是病毒進化的基石🤜,不同病毒的具體進化歷程各有其獨特性,但是其共性在於最終的進化結果中幾乎都是有害突變占據大多數。從整個進展尺度來看,即使有害突變與有益突變的比例會隨物種和環境不同而有所區別👨🏿‍🦰,但是有害突變被認為總是遠多於有益突變📜🏋🏽‍♀️,即有益突變是病毒蛋白進化適應度空間中的極小子集🎥。很自然地,有害突變的高發性使得同一個變異株內難以共存較多的突變,即一個變異株所具有的突變數量與原始型相比往往較少🥇,僅有少數位點會發生突變。因此👫🏼,團隊將上述病毒進化軌跡凝練為病毒進化的兩大本質特點👺:“少數位點突變”(Few-site mutations)和“稀少有益突變”(Rare beneficial mutations)。以上兩大進化特點導致了明顯的建模難題:“少數位點突變”引起的分子內相互作用網絡的變化相對比較微弱👩🏿‍🎤💈,使得神經網絡對其直接捕獲極其困難🗻🔙,而“稀少有益突變”在數據層面造成了嚴重的正負樣本不平衡問題,這導致精準預測對進化至關重要的稀少有益突變成為巨大挑戰🌛。

為此,研究團隊提出了進化驅動的病毒變異驅動力預測框架E2VD(圖1),通過“微弱突變放大”和“稀少有益突變挖掘”兩個創新設計實現了跨病毒類型和跨毒株類型的統一預測。通過面向進化場景的定製化蛋白質大語言模型(國產E級智算平臺“鵬城雲腦II”256張NPU支撐訓練)🧍🏻‍♂️、突變所處相互作用網絡的全面重建模塊(包含動態粒度註意力機製以挖掘motif模式)以及提出的多任務焦點損失函數,E2VD在幾類關鍵病毒進化驅動力預測任務上實現了最佳性能,顯著且全面超越其他方法(性能提升在7%-21%不等),實驗證明了該預測框架對於病毒進化模式的精準捕獲,將稀少有益突變的預測精度從13%大幅提升至80%,實現了跨越式精度提升。其可用於靈活定製化組合以預測不同尺度的進化趨勢🔅,不僅實現了大流行內部進化軌跡的解釋和潛在高風險突變的精準預測,而且實現了對於大流行尺度的宏觀進化軌跡預測👩‍🍳,重現了病毒在真實世界中的進化路線👨🏽‍🍼,為病毒進化機製的解讀提供理論性支撐。

E2VD模型架構

此外🫰🏼👨🏻‍🚒,E2VD在跨越病毒類型和毒株類型時展現出強大的泛化能力(圖2)。研究團隊提出魯棒且避免實驗批次效應影響的突變所致病毒適應度變化評估指標,並以此評估了模型在同病毒類型的不同毒株之間以及不同病毒類型之間的泛化表現,E2VD在新冠病毒🚞、寨卡病毒🥨、流感病毒以及艾滋病病毒上展現出理想的泛化能力🤹🏿‍♀️,始終超越其他方法,未來可進一步拓展至更多傳染性病毒,與疫苗和蛋白類藥物設計流程相結合👨🏿‍🔧,有望提升設計效率和設計可控度。

image3.png

跨病毒類型和跨毒株的泛化性能

意昂3体育官网信息工程學院博士生聶誌偉💂🏼‍♀️、碩士生劉旭東為該工作的共同第一作者,田永鴻和陳傑為共同通訊作者。


轉載本網文章請註明出處

意昂3体育专业提供🚶🏻‍♂️:意昂3体育意昂3体育平台👩🏽‍⚖️、意昂3体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂3体育欢迎您。 意昂3体育官網xml地圖