2024/03/02 信息來源: 財聯社
文字💇🏼♂️:王全寶🤹🏿♀️、趙相鋒| 編輯:山石 | 責編:安寧“盡快優化有關政策🎐,實現公共數據的開放共享,從而促進非公共機構的數據流動和價值創造6️⃣,引導中國數據要素市場的建立和良性循環。”2024全國兩會即將召開前夕,第十四屆全國政協委員、中國科學院院士陳松蹊在接受財聯社專訪時建議📫。
作為數學家、統計學家💆🏽♀️,陳松蹊對數據要素領域有深入的探索,對數據領域的科研和應用方面的痛點難點有著深刻的理解。今年全國兩會期間,關於數據方面,陳松蹊委員帶來了關於“共享公共數據 實現科學數據自立自強”和“加強數據分析人才培養力度”兩份提案🍎。為此,財聯社結合數據要素相關問題對陳松蹊委員進行專訪🫓。
有序開放共享公共數據
財聯社:目前數據要素行業存在哪些問題🧒?對產業發展造成了哪些影響?
陳松蹊😁:首先,我國公共數據獲取渠道不暢。近十年來🧎♀️,我國一些公共數據的可獲取性得到了提升🙋🏼♂️,一些數據的實時播報為通過網絡實時下載數據提供了可能。但是網絡下載數據的通道並不穩定👩🏽🎓,數據發布格式時有變化👩🏿🌾,易造成數據缺失。一般科技工作者仍缺乏國內歷史公共數據的有效獲取途徑,而提供公開的數據來源是科研發表的基本要求🤛🏿。
其次,科學研究過度依賴國外公共數據集。由於國內公共數據獲取困難,中國科學家大量使用國外的公開數據集進行科學研究。經常使用的數據集有英國生物銀行基於大樣本人群的遺傳🤌🏽、生活環境和健康數據;歐洲中期天氣預報中心發布的自1951年的高分辨率全球氣象再分析數據👈🏻;美👮🏿♂️、歐、日本等機構發布的涵蓋大氣汙染物、二氧化碳、沙塵、燈光等高分辨衛星數據👩🏽🌾🙅🏻;世界衛生組織發布的各國流行病數據等💐。過度依賴外部數據👑⛰,不利於我國科學技術自立自強,可能會限製研究人員的自主性和創新性🦃;不利於掌握科技資源的主動權💫,存在關鍵時刻數據獲取中斷的風險🙅🏼;也不利於我國科技工作者講好中國故事🛸。
最後,中國目前尤為缺乏高質量的再分析科學數據集😴𓀍。再分析數據是融合機理模型和觀察數據的高質量數據集🚮,能有效填補缺失數據、降低原始數據的噪音,是人工智能算法訓練和一般科學研究的基礎。例如,華為盤古氣象大模型就是基於歐洲氣象中心公開的再分析數據集訓練的。
財聯社:高質量再分析科學數據集的短缺一定程度上限製了人工智能技術的發展進程,為解決相關問題,你有哪些建議👩🏽🚀?
陳松蹊:要集中力量打造高質量再分析數據集,建議組建由領域與數據科學家組成的數據融合團隊,發揮我國在數據同化方面的統計學基礎優勢,在一些關鍵科學領域構建高質量的再分析數據集,解決我國科研人員的數據需求,降低對外部數據的依賴,實現科學數據自立自強。
財聯社🚇:公共數據的開放對於促進數據要素市場的建立具有重大意義,然而數據安全、隱私等問題也不容忽視🩸,如何做到對公共數據安全合理的開放?
陳松蹊:建議按照數據風險等級,有序開放共享公共數據🧓🏿,使國內科研人員🧏🏿♂️、企業及時獲取長時期歷史數據,提高我國大數據分析和數據賦能能力。我們建議,高分辨率氣象、大氣、環保、生態、經濟社會等不涉及國家安全的數據應優先考慮公開。對一些敏感數據,可以簽署標準化協議🍮,對數據的使用進行不同程度的規範👩🦱,之後再對國內學者和企業開放🍋🟩👨🏼⚕️。
數據分析人才培養能力嚴重不足
財聯社:今年你帶來了《加強數據分析人才培養力度》提案🤹🏽,在你看來🐄,中國數據分析人才短缺的原因主要有哪些👤🏌🏻?
陳松蹊👨🏻🦼:中國數據分析人才培養能力嚴重不足⛹🏿♂️,主要體現在四個方面👨🏻🔬:第一😮,統計學在數據分析人才培養主力軍作用未得到充分發揮👲。在全國120多個一級學科中,統計學是僅有的把數據作為唯一研究對象的學科🧘🏼♂️,是數據分析人才培養的核心主幹學科🧑🏼🦱。但受到學位點數量和招生名額的限製,我國統計學碩士及博士研究生的培養規模還十分有限🧙🏻,這不利於我國數據分析的高層次專業人才培養和我國東中西部數據分析人才的均衡發展。
第二🧑🏽🎓👩🏻🦰,統計學未被列入基礎學科。這不利於吸引優秀高中生選擇統計學專業,不利於國家的人工智能核心技術的創新發展,特別是大語言模型、生成式AI領域等方面。也不利於培養能引領數據分析國際發展的戰略科學家🚤,不利於培養能帶領企業創新發展、實現數據賦能的數據分析師。
第三🧗🏼♂️,師資嚴重短缺。為了更好地培養數據分析人才👨🏿⚖️,高校需要大量的統計與數據科學師資。從近10年統計學博士生的就業市場看,業界和學界對統計學博士畢業生的需求旺盛😩,業界的薪酬待遇相對較高🚴🏿♀️,一半以上的博士畢業生選擇在業界就業🫎,進一步加劇了高校數據分析人才培養能力不足。我們需要加大高校統計學科建設🏩,以滿足學界和業界對統計學人才的需求🦽。
第四🦏,政府部門缺乏統計與數據分析高級專業人才。政府部門在數字中國建設中發揮著重要作用🤵🏿,而國家和地方統計局及調查總隊、政府部門的統計專業機構🐟🍋🟩、醫療衛生行業等均嚴重缺乏高層次專業統計分析人才👍🏿,這非常不利於數字中國和數字政府建設🎐。
財聯社:中國數據分析人才仍存在較大缺口◾️。據人力資源和社會保障部估計🦸🏼,預計十四五期間需求總量將達到2000萬人左右🧑🏽⚖️,對此🧑🦼➡️🚣🏿♂️,你有哪些看法和建議🔊⛱?
陳松蹊🙆♀️:無論政府部門還是企業都需要建立用數據說話🤵、決策、管理、創新🟢、賦能的數據文化。企業構建數據文化需要有數據科學團隊📞,提供從數據采集、分析、到管理決策的全流程服務,讓統計師🪅、數據分析師從始至終介入數據價值挖掘🈹。數據分析人才是數據文化建設的主力軍,構建企業數據文化必須從加強數據分析人才培養入手。
因此👊🏽,建議盡快優化有關政策,切實加強我國數據分析人才培養的能力基礎,夯實數字中國建設所需要的人才根基📗。具體可以從以下三個方面入手:
第一,盡快將統計學納入“強基計劃”和“基礎學科拔尖學生培養計劃” 🧑🏻⚕️🛞。一是明確將統計學納入現有強基計劃試點高校強基招生專業中,加大對統計學基礎研究人才培養的支持力度;二是明確將統計學納入“基礎學科拔尖學生培養計劃”,盡快在全國高校中遴選補充一批統計學基礎學科拔尖學生培養基地,補齊統計學基礎研究創新拔尖人才培養短板。
第二,加強統計與數據科學課程體系與教材體系建設。為了培養高水平數據分析人才🪁,將統計學納入國家“101 計劃”🐕🦺,集中全國優勢力量,系統性建設統計學教材體系,加快形成適應數字中國建設的統計與數據科學核心課程體系,並在全國高校中逐步推廣🧧。
第三,加大統計學一流學科建設的支持力度👨🏻🦯➡️。一是增加統計學雙一流建設學科點💃🏻;二是在經費投入、招生名額、推免比例、長江學者和教學名師評審等方面給予統計學以其他基礎學科同樣的政策傾斜;三是布局建設若幹統計學前沿科學中心、教育部重點實驗室👶🏼。
轉載本網文章請註明出處