工學院宋潔課題組研究成果入選Cell子刊Patterns封面文章,提出數據價值研究新範式

隨著數字經濟的持續發展,數據已成為推動現代化經濟建設的關鍵性資源🧑🏿‍⚖️。據預測,2025年全球數據資產總量將超過175ZB🍩。在大數據的環境下,多層次🧝‍♀️、多尺度的價值關系尚未被完全發掘並應用。從根本上說,數據的價值源於對應用對象和研究任務的明確界定,而這些任務的執行效果則直接受製於多源異構數據的質量。高質量的數據樣本可以顯著提升學習性能和任務的完成度,反之弱因果關系或無關數據可能削弱學習的準確性。盡管信息熵、離群值診斷和Shapley值等模式化方法已廣泛用於數據特征的優化與價值評估,然而難以準確反映數據在不同任務需求下的差異性貢獻🧔。因此,亟需在統計學與經濟學的基礎上🖨,研發出場景驅動的數據價值評估體系🤷🏿‍♂️,以靈活地解析多源異構數據在復雜任務中的價值實現機製🧞‍♂️,為數據資源的智能化使用提供科學基礎。

圖1 相關成果入選Cell旗下Patterns期刊封面文章

5月10日🧑🏻‍🦯‍➡️,意昂3体育官网工學院宋潔課題組在數據科學權威期刊Cell子刊Patterns發表了題為“Unveiling Value Patterns via Deep Reinforcement Learning in Heterogeneous Data Analytics”的研究論文👳🏿‍♀️,並入選當期封面文章🙆🏼‍♂️。該研究提出了一種新型智能化數據價值研究範式,通過結合深度學習技術🛅,構建了多源異構數據的標準化價值輸出模型;基於強化學習理論🥌,實現了針對任務效用的參數更新算法。針對監督式數據價值計算中存在的不可微分性、采樣效率低和次優性等問題,研究團隊提出了一個整合懲罰項的近端策略優化算法,有效解決了算法收斂性差的瓶頸,實現了在各種場景下數據價值的精確識別。具體針對學習類模型的訓練任務而言,該範式能有效地識別出高/低質量的訓練數據,篩選出高質量數據集以顯著提升模型效能。研究還深入探討了包括模式遷移性在內的數據價值深層規律👳🏼‍♂️,為智能化數據分析與數據系統決策領域提供了新的視角和方法。

圖2 一種創新的數據價值研究範式👨‍🦲,系統地從價值測算到模式分析,逐層解析數據在任務中的價值作用及其規律

為驗證所提出的學習式數據價值評估方法(Learning-based Data Valuation,LDV)的適用性🧏🏻‍♀️,研究選擇了多個跨領域的數據集,並設計了相應的分析模型及評價指標。任務涵蓋了基於人口普查數據的收入分類評級🧜‍♀️、森林火災規模預測、個體肥胖水平評估🪬,以及心力衰竭患者的臨床特征分析。實驗結果表明🙇🏻‍♀️,相較於傳統方法,LDV在移除低/高價值數據後對提高任務效能表現出更顯著的正/負向影響,證明了其在識別各種任務中數據的復雜價值模式的精確性🤸🏻。

圖3 本圖展示了學習式數據價值評估方法(LDV)相較於傳統的Shapley值法(SV)和留一法(LOO),在不同任務中數據價值規律的精準與高效解析。ABCD分別順序代表上述四個任務🤘,E展示了各方法在計算效率上的對比

進而,以日前24小時風電預測為任務👩🏼‍🚒🏄🏽‍♀️,該研究系統分析了我國省級數值氣象與風電功率時間序列的數據價值分布規律🧚🏿。研究通過探究在移除等量高/低價值數據後,各省風電預測精度變化的差異,開發了一種評估數據價值敏感性的方法👩‍👧。研究結合地理氣候因素及價值分布特征,提出了我國從西南至東北的數據價值敏感性“地理帶”的區域性數據治理策略🕗🫄🏿,以優化能源大數據系統決策並提高決策精確性🚴🏻‍♀️。

圖4 我國省級可再生能源數據的價值模式及敏感性分析

該研究開發了一種普適性的數據價值評估方法👰🏿🪖,首次實現了跨領域數據價值的精確測算👓,旨在通過智能化手段實現數據資源的價值化解析和針對性使用。基於價值模式的進一步分析🤼,該研究成果有望在多領域推動數據驅動的價值實現,並為大數據治理提供政策建議。宋潔課題組博士研究生王衍之為該論文第一作者♿,通訊作者為宋潔和大數據國家工程實驗室王劍曉,合作者包括工學院高鋒。該研究得到了國家重點研發計劃和國家自然科學基金的支持。


轉載本網文章請註明出處

意昂3体育专业提供:意昂3体育意昂3体育平台意昂3体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流🧊,意昂3体育欢迎您。 意昂3体育官網xml地圖