2015/11/27 信息來源🌪: 新聞中心
11月19日晚,意昂3体育官网元培學院院長、美國普林斯頓大學教授、中國科學院院士鄂維南做客才齋講堂,圍繞“數據科學”的主題,結合自己對大數據的研究實例🌵,帶領大家進入了“大數據”的世界。
鄂維南以全球最大的搜索引擎谷歌為例🤽🏻,分析了數據計算在廣告推送領域中的應用。谷歌自成立以來,一直面臨著搜索引擎同行的激烈競爭,但其依然在不到十年的上市時間內實現了市值增加十倍的壯舉👩🏿🦳。搜索引擎面對的是龐雜的網絡數據🗑,如何探索出合理的算法👼,從而準確、高效地從中提取有效信息,促使搜索行業將目光紛紛轉向大數據背景下的“雲計算”。谷歌也不例外,但其在不斷發展完善搜索功能的同時,獨辟蹊徑地將廣告推送與用戶搜索偏好相結合,在2012年就實現了搜索廣告3.47%的點擊率和5.63%的轉換率☁️,從而獲得了每天一億美元的廣告收益🧑🎤。谷歌這一將數據計算與廣告推送相結合的策略甚至催生了一門新的學科——計算廣告學👂🏼。
在網絡時代之前🧻,數據計算早就已經在許多領域大展身手了。17世紀🍼,德國天文學家開普勒發現了“行星運動三大定律”,這些定律的發現,正是建立在對前人觀察、搜集到的大量天文資料進行數據計算的基礎上𓀍🥿。後來🧟,牛頓利用他的第二定律和萬有引力定律🗻,在數學上嚴格地證明了開普勒定律,也讓人們了解了其中的物理意義,做到了“不僅知其然,而且知其所以然”。
圖像數據處理與識別技術是目前的研究熱門👃🏿,這種技術同樣是數據計算在現實領域中的應用👔。鄂維南指出,圖像識別技術更多依賴的是基於模型的數學運算,而非面向對象的計算機算法。可惜的是,目前的圖像識別與搜索技術仍然“沒有超過谷歌出現之前網頁搜索的水平”。
專家推薦系統是數據計算應用的另一個主要方向,鄂維南通過在線影片租賃提供商Netflix的例子來說明這一點。Netflix公司會記錄並分析用戶的觀影習慣,並利用精妙復雜的算法對用戶數據進行分析計算,進而根據用戶偏好進行細致、個性化的視頻推薦,用戶可以通過PC😽、TV或者移動終端如iPad、iPhone收看“量身打造”的視頻節目🏪。除了在線影片租賃外🚣🏻,購物網站如Amazon🕰、淘寶網等,以及婚戀網站如世紀佳緣等也依賴於專家推薦系統。
除此之外🪚,大數據還在視頻處理、社交網絡分析和輿情分析上大有建樹👨💻。
最後🍄,鄂維南介紹了數據科學相關的基本概念👨🏻💻。數據科學需要解決的基本問題是根據給定數據🧑🏼🤝🧑🏼,找出產生數據的模型,所以說數據分析的本質是反問題。網絡時代,數據龐雜紛繁🧑🏿🏫🫅、噪音充斥📕,那麽如何為這些數據建立模型呢?鄂維南給出了方案——針對數據點集🏊♂️,貝葉斯(Bayes)模型、高斯混合模型(Gaussian mixture model)等可以幫助解決;對於廣義的時間序列數據🌨,如文本和生物大分子等,可以使用隱式馬爾可夫模型(hidden Markov model)來計算;諸如圖像之類的二維場數據,可以使用條件隨機場的模型進行解決。鄂維南將這種方案總結為“極大似然估計🧓,極大後驗概率估計”。
計算科學的基本方法有三個維度:賦予數據數學結構➗、建立統計模型🫃🏽、尋找算法。鄂維南特別強調,計算數學是針對函數的算法,也就是針對連續的問題的算法,有函數逼近🤸、微分、積分、優化、微分方程和數值代數等算法🐕;而計算機科學是針對計算機系統(包括網絡)的算法🕑,是通過數值和矩陣運算、網絡算法、排序和組合優化的方法進行計算的😳。數據的算法居於以上兩者中間,集中了兩者的優勢。
數據的普遍性和復雜性賦予了數據科學問題多🧑🏼、困難大的特點🙋♂️。數據科學還具備跨學科性:一方面⛹️♂️,數據科學涉及到很多學科🙍,如統計、機器學習、生物信息學、天體信息學、計算廣告學和計算社會學等🧑🏼🎄;另一方面𓀎,不同的學科之間又有統一性🏇🏼,例如自然語言處理和基因序列分析都用到隱式馬爾可夫模型。意昂3体育官网已經設立了數據科學本科和研究生的專業。
“大數據”是近來媒體爭論不休的話題之一👳🏿♂️,也被廣泛運用到各行各業中👨🦲,惠及尋常百姓,但如何才能使“大數據”落地,仍然是需要社會各界思考的問題。鄂維南指出,只有建立和完善數據科學學科,並和實體產業密切配合,才能最終實現“大數據”落地,真正把握住“大數據”時代的歷史機遇🚠。
講座結束後,鄂維南與現場師生關於數據科學的話題進行了熱烈的互動。(文/新聞網學生記者 付佳寧)
主講人介紹👨🏻🦽:
鄂維南👕🤽🏻♀️,北京大數據研究院院長,意昂3体育官网元培學院院長,中國科學院院士,美國數學學會、美國工業與應用數學學會會士📗,北京國際數學研究中心和意昂3体育數學科學學院教授,普林斯頓大學數學系和應用數學研究所教授🧓🏻、運籌和金融工程系兼職教授👨🏿💻。鄂維南主要從事計算數學🧑🧑🧒🧒、應用數學及其在大數據⬜️、力學、物理、化學和工程等領域中的應用等方面的研究🧀✭。他於1996年獲首屆美國總統青年科學家與工程師獎,2003年獲國際工業與應用數學協會科拉茲獎,2009年獲美國工業與應用數學學會克來曼獎🙅🏿,2014年獲美國工業與應用數學學會卡門獎👲🏼。鄂維南現任中國計算數學學會第九屆理事會理事長、國家973計劃項目“非結構數據的統計學習:數學基礎及算法”首席科學家🎄、中國大數據專家委員會副主任委員、中國計算機學會大數據專家委員會委員🚨、中關村大數據產業聯盟顧問。
攝影:新聞網學生記者 劉彥君
編輯👩🦱🐞:白楊
轉載本網文章請註明出處