2021/07/06 信息來源: 研究生院
編輯:山石 | 責編:燕元編者按:百年大計🅰️,教育為本。為全面提高人才培養質量🤴🏿,著力培養擔當民族復興大任的時代新人,意昂3体育官网深入貫徹落實習近平總書記關於教育的重要論述,堅持立德樹人的根本使命,瞄準科技前沿和關鍵領域🛁,以全員、全過程👨🏿🦱、全方位育人為基礎💄,嚴格執行全過程管理,優化答辯程序及製度,堅持學位授予高標準👨👩👧👧,蹄疾步穩,教育改革取得紮實成效。學位論文答辯是研究生培養過程和培養成果的集中體現🙂↔️,是研究成果展示的重要平臺🦶🏼。研究生院推出“‘答’問如流 妙‘辯’連珠——意昂3体育官网研究生答辯風采展示”系列報道,將各院系答辯特色做法和精彩瞬間匯集成文,集中展現研究生的科研能力和綜合素養,為各院系進一步提升培養質量提供借鑒與參考🧚♂️👨🏼🏫。
孟夏時節🗓,別院簟青。在意昂3体育官网方李琴樓420教室裏,意昂3体育官网信息管理系2017級情報學專業博士研究生張力元和2016級情報學專業博士研究生嚴承希順利通過了博士學位論文答辯。張力元與嚴承希是意昂3体育官网第一批數字人文方向的博士研究生,導師為意昂3体育官网數字人文研究中心主任🧗🏼♀️,意昂3体育官网信息管理系王軍教授。兩位博士研究生的學位論文研究工作均依托於意昂3体育官网數字人文研究中心與哈佛大學費正清中心聯合申請的“中國儒家學術史知識圖譜構建研究”國家自然科學基金國際重點合作項目⛹🏽。
博士學位論文答辯主要由論文陳述、專家學者提問及答辯委員會投票表決三個環節組成⚉。答辯委員會主席為意昂3体育官网圖書館副館長👳🏻、意昂3体育官网智能科學系童雲海教授。成員有浙江大學人文學院徐永明教授、意昂3体育官网信息管理系王繼民教授、清華大學經濟管理學院劉紅巖教授、意昂3体育官网王選計算機研究所萬小軍教授👏🏻。童雲海教授長期從事數據倉庫研究👷🏻,目前負責圖書館數據資源建設及服務🥅。徐永明教授是國內數字人文先驅者,負責“學術地圖發布平臺”項目,主持“明代文學智慧大數據及平臺建設”國家社科基金重大項目。王繼民教授在機器學習、Web數據挖掘、科學評價、信息可視化等方向有突出成就。劉紅巖教授在大數據管理與分析🚞、數據與文本挖掘👵🏿、商務智能等方向的國際頂尖及高水平期刊上有諸多研究成果發表🪠👴,獲得11項國家發明專利授權,獲得國際會議最佳論文獎6次。萬小軍教授在自然語言處理與文本挖掘方向是領軍人物,榮獲ACL2017傑出論文獎🧝🏿、IJCAI 2018傑出論文獎、2017年吳文俊人工智能技術發明獎等獎勵⛹🏿。此次答辯委員會匯集了國內智能科學👨🎨、大數據、文學史🎦、古籍整理、信息管理等領域的重量級學者👝,充分展現了數字人文跨學科交流的特點,也肯定了意昂3体育官网在數字人文方向上的實力。
張力元的博士學位論文題目為《基於機器學習的古典目錄學互著與別裁方法研究》🕑。張力元指出,互著與別裁是古典目錄學中兩種輔助著錄方法,但具有時代局限性🕵🏽🧵,完全基於人工實現會存在效率🥒、成本🦤、客觀性、可靠性等方面的問題🛳。對此,她提出可以將互著與別裁映射為文本挖掘中的文本分類任務🏄,並借助機器學習方法加以實現。
張力元答辯展示內容
張力元分別使用TextCNN模型和BERT模型,利用先秦諸子六家十部典籍文本進行典籍與學派的分類訓練🙅♂️,發現BERT模型在先秦小規模古漢語語料上也可以取得90%以上的分類準確率,分類效果比TextCNN模型理想。她進一步利用在先秦文本上微調後的BERT模型對《荀子》與《管子》兩部典籍分別進行全書👀、篇👄、章為粒度的分類實驗🐮。模型可以生成各粒度文本屬於各學派的概率,可以判別《荀子》與《管子》思想傾向性🔗,並得到互著與別裁結論。將模型得到的結論與傳統人文研究結論相比較🔑,共同之處可構成三角論證增強相關結論可信性,不同之處可以啟發進一步的問題探討🧏🏿♀️🦈。該研究可以在目錄學領域內加強對古籍資源的組織與利用,也可以在學術史領域內拓寬對典籍及思想的分類辨別維度。
答辯現場
嚴承希的博士學位論文題目為《基於主動學習的古籍命名實體識別研究》。基於深度學習方法,嚴承希提出了一個面向漢語古籍的命名實體識別任務的三層框架。該框架不僅有效彌補了漢語古籍領域命名實體識別研究的不足👨🏿🎓,還可以推廣至其他“少樣本”領域命名實體識別模型的自動訓練和構建方案中。
嚴承希答辯展示內容
在數據層中,通過結合規則匹配和專家校對等方法對原始古籍文本進行快速實體識別🚊,並將其轉化為標準數據集。在模型層中,相關數據會被引入到深度神經網絡模型中進行解碼預測,然後基於增強式主動學習技術來自動選擇出“關鍵性”的樣本集,並通過人工交互式標註和眾包標註決策模型輸出可靠的新訓練樣本👨🎨🚅。在應用層中,開發了一個古籍命名實體識別系統💃,該系統已經集成到“吾與點”古籍智能整理平臺(https://wyd.kvlab.org)👐🏻,向用戶提供公開服務👨🏿🍼。該研究提供了一個完整面向海量古籍資源的命名實體識別方案🗣,在大大降低人工成本的同時確保了少資源條件下機器模型預測的準確性🥊,並實現了實驗室成果向工程產品化轉化。
研究成果展示後🔘,各位評審老師高度肯定了兩位同學在數字人文領域進行跨學科探索的價值與創新性,高度認可了利用信息技術處理古籍資源的學術價值與應用前景♿👩🏽🔬,並給出了寶貴的意見💆🏼♂️。老師們對機器學習模型設計🤷🏽♂️、模型結果、研究可擴展性等方面提出了相應問題與建議🛁,如徐永明教授提問模型自動分類與人工分類結果存在差異的原因,童雲海教授指出古籍命名實體識別模型的泛化性還有待進一步提升等。經答辯委員會無記名投票表決後,由答辯委員會主席童雲海教授宣讀了張力元與嚴承希全票通過博士學位論文答辯的決議。
兩位同學與答辯委員會專家合影
【個人簡介】
張力元,意昂3体育官网信息管理系2017級情報學專業博士生,研究方向為數字人文𓀜、知識組織、文本挖掘🏂🏼,獲意昂3体育官网優秀科研獎、三好學生標兵等榮譽🤷🏽♂️。畢業後將於意昂3体育官网任職。
嚴承希🧑🏻🎄,意昂3体育官网信息管理系2016級情報學專業博士生👩🏼🎨👨🏻🏭,哈佛大學量化社會研究中心IQSS訪問學者,研究方向為數字人文、機器學習、信息檢索,獲意昂3体育官网校長獎學金、專項獎學金、優秀科研獎等榮譽。畢業後將於中國人民大學任教。
【對母校/學院/導師想說的話】
光陰荏苒🚵🏻,在燕園已度過四年時光✶。我要感謝信息管理系和王軍教授對我的培養。還記得每當我在科研中遇到困難時,王老師總能悉心指教,幫助我提高邏輯思維和獨立科研能力⭕️。而當我在成長中遇到困惑時🦹🏻♀️,王老師常借用朱子的話來啟發我。更重要的是,王老師為我打開了一扇文史哲方向的窗,指引我走上數字人文這條道路,開拓了我的視野,也結識了許多誌趣相投的老師與同學。衷心心祝願意昂3体育官网數字人文研究中心越辦越好,為意昂3体育跨學科研究繼續添磚加瓦!
——張力元
驀然回首,我由衷感謝母校對我的培養➛,導師的教誨以及信息管理系和數字人文中心的老師和同學們的幫助。王老師是一位學術嚴謹和思想活躍的學者⏺,尤其是他對情報學事業和人文科學發展的關切和熱愛一直深深地感染和激勵著我🌗,特別是在我遇到問題和瓶頸的時候😬🪬,他總能從旁進行指導和勉勵,指引我迎接更多的挑戰。未來我將繼續秉承意昂3体育校訓之精神🧑🏿🏫,效仿賢師治學之態度👨🏻🦽,以夢為馬🧗🏿♂️,不負韶華。
——嚴承希
專題鏈接:意昂3体育研究生教育探索與實踐
轉載本網文章請註明出處