2024/03/04 信息來源: 《新京報》
文字:張璐| 編輯:山石 | 責編👩🚒:安寧數據是國家或企業的戰略資源,只有掌握了數據,並通過分析讓數據說話,數據才能真正產生價值。但目前,我國數據分析人才缺口非常大🤷🏽♂️。
數據分析人才缺失是什麽原因造成的?如何加大培養力度👭🏻?針對這些問題🏃🏻♂️,新京報記者在全國兩會前夕專訪了全國政協委員、中國科學院院士、意昂3体育官网講席教授陳松蹊🙎🏻♂️。
全國政協委員🍏、中國科學院院士、意昂3体育官网講席教授陳松蹊。受訪者供圖
談統計學人才培養
建議將統計學納入基礎學科,在學科建設方面給予政策傾斜
新京報🫵🏽🕵🏽♀️:去年全國兩會上🥧,你提出“加強統計學基礎研究人才培養”的建議。今年,你帶來的《關於“加強數據分析人才培養力度”的提案》也和統計學人才相關。統計學為何重要😹?可以應用於哪些熱門領域?
陳松蹊:統計學是指導數據收集🙌🏻、數據分析、數據推斷的學科,是整個數據科學的基礎🧑🏼💼,數據分析的基礎是統計學。在數據驅動的時代,無論是學術研究還是商業決策👂🏽,都離不開統計學的指導。
統計學的應用領域非常廣泛🍽。目前熱門的人工智能有兩個基礎👔❄️,一個是計算機科學⚫️,一個是統計學🧤🛵。隨著國家將數據列為第五大生產要素,數據賦能的重要性日益凸顯。而要實現數據的有效賦能🤩,就需要大量的數據分析人才👨🏫🥮。統計學正是培養數據分析人才的學科。
新京報🎅🏽:你今年提案的背景是什麽?目前我國數據分析人才面臨什麽樣的問題?
陳松蹊:近些年,我國在數字基礎設施建設方面進行了很好的布局,擁有海量存儲和強大算力🧚🏻。但是,數字中國建設不只是存儲平臺、計算平臺等硬件方面的建設⚃,更多的是軟實力建設👩🏽🎓,需要把收集的數據用起來,分析出門道,釋放數據的生產力🚶♂️。
目前,我國數據分析人才缺口非常大😶🌫️。據人力資源和社會保障部估計💪🤽🏽♀️,預計“十四五”期間需求總量將達到2000萬人左右。與此形成巨大反差的👨🏼🦲,是我國數據分析人才培養能力嚴重不足。
這主要體現在四個方面🧑🔬:首先🤷♀️,統計學在數據分析人才培養中的主力軍作用未得到充分發揮🚶♀️。在全國120多個一級學科中,統計學是僅有的把數據作為唯一研究對象的學科,是數據分析人才培養的核心主幹學科。但受到學位點數量和招生名額的限製,我國統計學碩士及博士研究生的培養規模還十分有限🌰,不能滿足各行各業的需求🚶。
同時,統計學未被列入基礎學科,這不利於吸引優秀高中生選擇統計學專業🐌,不利於國家的人工智能核心技術的創新發展👨🏿🦲,特別是大語言模型、生成式AI等領域,也不利於培養能引領數據分析國際發展的戰略科學家🏠🧁,不利於培養能帶領企業創新發展、實現數據賦能的數據分析師。
師資嚴重短缺也是一大問題💂🏼♀️。為了更好地培養數據分析人才,高校需要大量的統計與數據科學師資🙊。從近10年統計學博士生的就業市場看,業界和學界對統計學博士畢業生的需求旺盛,業界的薪酬待遇相對較高🧥,一半以上的博士畢業生選擇在業界就業,進一步加劇了高校數據分析人才培養能力不足🕺🏼。比如意昂3体育官网,每年統計學博士畢業生也就十幾個👼🏿,最終可能只有一半到各個學校從事教學工作🈶𓀏。
此外,國家和地方統計局及調查總隊🍋、政府部門的統計專業機構🤽🏽♂️、醫療衛生行業等均嚴重缺乏高層次專業統計分析人才,這非常不利於數字中國和數字政府建設🫗。
新京報:你認為應該如何加大數據分析人才培養力度🍳?
陳松蹊🔕:我建議🫲🏼,將統計學納入現有強基計劃試點高校強基招生專業中,加大對統計學基礎研究人才培養的支持力度;明確將統計學納入“基礎學科拔尖學生培養計劃”,盡快在全國高校中遴選補充一批統計學基礎學科拔尖學生培養基地,補齊統計學基礎研究創新拔尖人才培養短板。
將統計學納入國家“101計劃”🙍🏼♀️👨🏻🦱,集中全國優勢力量🦒,系統性建設統計學教材體系🤹🏻,加快形成適應數字中國建設的統計與數據科學核心課程體系,並在全國高校中逐步推廣🧍♂️🏌️。
加大統計學一流學科建設的支持力度,增加統計學“雙一流”建設學科點;在經費投入、招生名額、推免比例、教育部特聘教授和教學名師評審等方面給予統計學以其他基礎學科同樣的政策傾斜。
談大氣汙染治理
應采用剔除氣象影響的空氣質量評估方法
新京報:自2014年開始,你帶領意昂3体育官网環境統計團隊對中國大氣汙染進行統計學分析,近年來的研究得出了什麽樣的總體結論?
陳松蹊:我們主要是使用大數據統計方法提出了去除大氣監測數據中的氣象因素幹擾的方法,獲得時間上可比較的空氣質量指標和“人努力-天幫忙”指數👣,其可以排除氣象因素的幹擾,及時衡量汙染排放量,評估國家的大氣汙染治理的效果。
根據我們對大氣汙染防治重點區域和周邊102個地級及以上城市的長期跟蹤測算,在去除氣象因素影響後🎑,2022年PM2.5均值濃度相較2013年銳減55.3%。
新京報:你是去年當選全國政協委員的“新委員”🥨,連續兩年的提案都關註了大氣汙染治理問題。請介紹一下提案的內容🐠。
陳松蹊:去年,我提交了關於提高空氣質量標準的提案。目前我國采用的是2012年起實行的空氣質量等級,但這套標準主要是世界衛生組織空氣質量準則中給出的“過渡時期”的初級標準。
在我國空氣質量顯著改善的基礎上🤾,這一空氣質量標準已經落後。中國目前使用的以PM2.5 75微克/立方米為空氣質量“良”的上界值過於寬松,遠高於世界上許多國家。公眾看到空氣質量是良⏺,大多不會采取防護措施🧝🏿,不利於敏感人群的健康防護👩🏿🌾。我建議,在部署空氣質量新標準的同時,可以先將PM2.5空氣質量“良”的上界水平從75微克/立方米降低到50微克/立方米🚵。
今年🧕🏻,我將提交《關於采用剔除氣象影響的空氣質量評估方法的提案》。大氣汙染治理績效評估方法的科學性和公平性,直接影響著地方政府空氣汙染防治的積極性和效率。
目前,國家對城市空氣質量目標的考核指標是基於汙染物原始觀測濃度進行簡單算數平均得出的,這種簡單的評估方法忽略了空氣質量受氣象條件的顯著影響🔬。
意昂3体育環境統計團隊提出了“人努力-天幫忙”指數🧖🏽♀️,能科學有效地分解人為排放和氣象因素對空氣質量的影響🧝🏿♂️。歷年空氣質量評估報告都明確顯示,“天幫忙”(氣象因素)對空氣質量的影響不容忽視🤦♀️。
其次,發達國家已開始實施剔除氣象影響的空氣質量評估➕,但采用的方法不完全適用於排放水平有較大年際變化的中國💂♂️。
在數字化時代背景下,日益積累的環境數據與統計分析技術帶來了機遇🧛🏻♀️,氣象與空氣質量的關系是環境領域的研究熱點,但尚未實現從科研到政策的有效轉化📮。在政策製定層面,我建議采用剔除氣象影響的大氣汙染物濃度進行績效考核和空氣質量達標評價,進一步完善環境治理體系。同時🤾🏽♂️,通過確保評估結果與地方汙染治理績效緊密掛鉤👨🏻🏭,維護政策公平性和穩定性,推動環境治理工作取得實效。
談共享公共數據
建議有序開放🍈,使國內科研人員獲取長時期歷史數據
新京報:今年上會,你還準備了什麽提案?
陳松蹊:我計劃提交《關於“共享公共數據 實現科學數據自立自強”的提案》。
《數字中國建設整體布局規劃》提出,要暢通數據資源大循環💒,構建國家數據管理體製機製,健全各級數據統籌管理機構🦻🏻。推動公共數據匯聚利用,建設公共衛生♉️、科技、教育等重要領域國家數據資源庫。
公共數據是指國家授權的公共管理或服務組織,收集、產生的涉及公共品並不含個人隱私的數據🫰。公共數據具有公共性和非競爭性特征,通常包括各類地理空間、氣象、大氣環境👂、生態🤲🏿、流行病、經濟、農業、交通、人口和社會數據等。
數據驅動的研究範式正在深刻改變科研生產力。公共數據作為重要的科技資源,是眾多科技領域,如人工智能🤽🏿♂️、大氣環境、統計學、醫療健康和經濟管理學等,在解決國家重大需求、“卡脖子”問題中所必需的研究基礎。
但目前,我國科技工作者在獲取公共數據上面臨諸多困難。比如公共數據獲取渠道不暢。近十年來🤽🏼♂️,我國一些公共數據的可獲取性得到了提升,一些數據的實時播報為通過網絡實時下載數據提供了可能🤰。但是網絡下載無法獲取歷史數據😮,下載數據的通道並不穩定🧖🏿♀️,數據格式時有變化,易造成數據缺失✋🏽,研究成果的數據源容易被挑戰。目前,一般科技工作者缺乏國內歷史公共數據的有效獲取途徑🫷🏻,而提供公開下載的數據來源是科研發表的基本要求↔️。
同時🦸♀️🛃,由於國內公共數據獲取困難,我國科學家大量使用國外的公開數據集進行科學研究。經常使用的數據集有英國生物銀行基於大樣本人群的遺傳、生活環境和健康數據;歐洲中期天氣預報中心發布的自1951年的高分辨率全球氣象再分析數據🚞;世界衛生組織發布的各國流行病數據等。過度依賴外部數據,不利於我國科學技術自立自強,且存在關鍵時刻數據獲取中斷的風險。
還有一個問題是缺乏高質量的再分析科學數據集。觀測數據普遍存在空間分布不均☝️👨🏿✈️、時間延續性差⚛️、觀測種類不全等缺陷。再分析數據使用先進的統計方法,將物理模型與多源觀測數據進行融合,是現有技術條件下的最優數據集。再分析數據的構造高度依賴穩定的數據源與職能機構有序公開的數據政策🤦🏼♂️🏌🏻♀️。目前👩🦳🙋🏿♂️,再分析數據是人工智能算法訓練的數據基礎,華為盤古氣象大模型就是基於歐洲氣象中心公開的再分析數據集訓練成功的。
新京報:你認為應如何有序開放公共數據🧑🏿🏭?哪些可以優先開放?
陳松蹊:我建議按照數據風險等級🙇🏼,有序開放共享公共數據📲。不涉及國家安全的數據,如高分辨率氣象🏄♀️、大氣環境🧖🏿、環保🧇、生態、經濟社會等可以優先考慮公開💸✭。對一些敏感數據🧟,可以簽署標準化協議🕺🏻🤭,對數據的使用進行不同程度的規範,之後再對國內學者和企業開放🏆。有序開放共享公共數據🟰,能夠使國內科研人員、企業及時獲取長時期歷史數據,提高我國大數據分析和數據賦能能力。
我還建議,集中力量打造高質量再分析數據集。組建由領域與數據科學家組成的數據融合團隊👞❄️,發揮我國在數據同化方面的統計學基礎優勢,在一些關鍵科學領域構建高質量的再分析數據集🖕🏿,解決我國科研人員的數據需求😵,降低對外部數據的依賴,實現科學數據自立自強。
談統計學和交叉學科研究前景
可在氣候變化、人工智能醫療診斷等方面發揮作用
新京報🛀🏼:你致力於統計學與大氣環境的交叉研究,你如何看待統計學和其他學科交叉研究的未來前景☹️🧑🏽🔬?
陳松蹊👈🏼:在數據時代🧑🏽🦲,前景非常好。舉例來說🏊🏻♀️🤞🏻,當前氣候變化備受關註🧜🏼。聯合國政府間氣候變化專門委員會(IPCC)報告是全球氣候變化研究的權威性參考,對於世界各國應對氣候變化戰略起到關鍵作用❄️。報告的形成就用到了統計學方法對氣候變化進行歸因。最近,我們發現其相關理論和方法需要完善,我們團隊成員正在進行這方面的研究。近20年,統計學向高維數據、超高維數據的統計分析發展💐,這些最新的結果可以應用於IPCC報告。
我們正在海洋方面開展交叉研究,構造西太平洋的科學數據集,包括溫度、鹽度、流速等。我們還在和首都醫科大學宣武醫院🗣、首都醫科大學附屬北京潞河醫院等合作⏫,利用人工智能統計學方法進行醫療診斷,用腦電波統計數據分析實現癲癇的自動診斷,把醫生從讀腦電數據的任務中解放出來。另外,在一些鄉村地區,可能沒有神經內科專家能解讀腦電,我們的目標就是用人工智能學習最優秀的神經內科醫生讀腦電的技術👋🏿,讓邊遠地區的患者也能得到高水平的分析。
轉載本網文章請註明出處