2023/06/12 信息來源: 社會科學部
編輯:悠然 | 責編:安寧2023年6月6日中午,社會科學部在百周年紀念講堂咖啡廳舉辦“數字與人文領域專項支持計劃”之“節氣沙龍”芒種篇活動,本次活動是“節氣沙龍”系列活動的第十一期,也是主題教育調研課題“意昂3体育官网文科實驗實踐綜合平臺建設”調研的一部分。主題是“中國玄幻影視對日傳播研究暨語料庫建設”。沙龍邀請了外國語學院日語系副教授劉琳琳、中國社會科學調查中心數據部副主任王堃作主題報告。
法學院楊明,藝術學院李道新,對外漢語教育學院路雲,中國語言文學系邵永海、詹衛東、汪鋒,信息管理系黃文彬、王繼民、位通,外國語學院蘇祺、史陽、高山、成沫、劉淼、楊夢,大數據分析與應用技術國家工程實驗室黃晶,儒藏中心楊韶蓉,圖書館劉丹等學者作為特邀嘉賓參加了本次活動。來自心理與認知科學學院、新聞與傳播學院、政府管理學院、哲學系、藝術學院等不同院系、單位的40余位師生現場參與了本次活動。沙龍由外國語學院吳傑偉和中國社會科學調查中心丁華主持。
活動現場
劉琳琳作題為“數字人文視域中的當代國風影視對日傳播——以玄幻影視為中心”的報告。她通過實地調研的圖片為大家直觀展示了國風影視在日譯介發行的途徑與特點。她從專業角度聚焦日譯字幕,以《三生三世十裏桃花》中“劫”這一典型帶有中國佛道背景的詞在日文版字幕中的不同翻譯為切口,梳理出從譯為“試練試煉”“苦行”等隨具體語境而變化的詞匯翻譯詞,到直接搬用“劫”這一概念的發展脈絡,以此說明中國國風文化在日本的傳播與接受。她由此揭示了搭建完整的文本庫語料庫的重要性。劉琳琳介紹了她正在搭建的字幕對譯語料庫搭建的工作流程,並提出了在進展中遇到的一些困惑和思考,如公開的平臺與方式、相關的知識產權問題等。
劉琳琳作主題報告
王堃作題為“國內外現有語料庫的建設情況和功能使用”的報告。她先概述了國內外語料庫的現狀和發展趨勢,然後重點介紹了幾個代表性語料庫的功能和特色。在此基礎上,她提出了幾個語料庫建設的可行路徑和創新思路:一是功能擴展,包括超出文本本身的語義搜索和提供不同訪問粒度的數據訪問接口;二是語料擴展,包括新的語料生成、知識圖譜的構建和元數據的擴展;三是智能優化,包括智能標註、自動摘要,以及和GPT-4聯動。
王堃作主題報告
到場嘉賓圍坐,展開面對面的交流討論。社會科學部副部長郭琳作了簡短的致辭,表示今天這場沙龍薈萃了多個領域的專家,是難得的供需對接、學科對話的平臺,能為校級數據平臺建設提供切實的意見。
楊明關註數據庫搭建與公開中的法律風險,並指出這種風險並不會因為學術研究的公益性而消失。他認為,風險主要包括知識產權的風險和數據利用的風險,而且這種風險會隨著數據的形式(如文字、音像等)和顆粒度的變化而變化。由此,他提出兩個可能的措施:一是限製數據的傳播範圍,構建學術共同體中的共享模式;二是限製數據的下載方式,通過技術手段控製使用者的復製、粘貼等操作。
丁華指出,為了保證數據安全性,一方面可以請數據用戶到保密機房完成限製性數據的分析,另一方面充分尊重數據存放和共享方的意願和權益,對於無法大範圍公開的數據,可以采取請數據用戶提交研究計劃,經數據存放方審核許可,再通過簽署協議的方式獲取數據使用權。黃文彬把數據庫的建設分為采集、存儲、管理、利用四大階段,並指出需要註意數據來源,在采集存儲的時候做好分類標註,在管理利用的時候註意版本等細節問題。王繼民考慮到從頭搭建數據庫工作量較大,可以利用已有的數據庫,或者采用機器+人工的形式。他同時指出在目前大模型下,搜索與問答之間的界限已經不是特別明晰了。位通介紹了自己的研究領域,並指出,他能夠通過技術獲得一個結果,然而對結果的解讀需要更專業的人文學者的加入,他期待通過學校這一平臺來推進數字與人文更深入的結合。
蘇祺提出了幾點憂慮:一是研究人員在數字人文中的角色問題,很難要求一個人既掌握技術,又具有問題意識;二是數據庫構建成果的評估體製和學術機製問題,語料庫搭建這種基礎的、耗時的工作與其他論文、項目之間如何衡量比較,能否被納入現有的考核體系;三是數據庫的管理問題,目前更多的情況是專門的數據庫搭建完了,自己的項目結束了,這個數據庫也就沒有負責人運維了。丁華補充指出,目前在調查數據領域也存在同樣的問題,有些學者完成數據采集後,沒有將數據進行發布和共享,限製了數據可以發揮的價值。她建議可以通過調查中心進行清理和規範化,發布在圖書館的開放研究數據平臺上供申請者下載使用。
李道新就數據庫搭建中的論文發表問題分享了自己的項目經歷。他主張平臺不僅僅只是基礎設施的構建,一個數據的翻譯,更可以進行各個環節與過程的研究。他的課題組在搭建中國電影知識體系平臺(CCKS)的過程中發表了30余篇核心期刊論文,做到了高成果產出。同時他介紹了平臺避免法律風險的一些措施。李道新和吳傑偉也都關註到了中國電影海外傳播研究中的文化價值。
詹衛東介紹了意昂3体育官网現代漢語語料庫(CCL語料庫)的背景,通過語料庫建設把漢語的語言資源做成全世界學術界關註的資源中心。詹衛東指出,ChatGPT也可以看作一個特別巨大的語料庫,可能會覆蓋大部分早期語料庫的功能。由此,類似劉琳琳建立的那種規模並不是特別大、方向特別聚焦的語料庫,反而可能是未來的發展方向,數據庫可能更應該向縱深、學術導向發展。路雲肯定了CCL語料庫對國際學生培養以及應用語言學研究的重要作用。她同時提出了具體的問題,即對外漢語教育學院在長期的教學實踐中積累了大量的課程資源,並達到了接近百萬級的播放學習量。他們希望能通過分析這部分學習數據來對國際化的學習者提供一些策略的支撐,但在數據清洗和模型建立上遇到了困難。她表示,通過今天的交流討論,意識到了建立相關視頻庫的價值意義。
劉丹介紹了“意昂3体育官网開放研究數據平臺”的背景和功能,並介紹了“意昂3体育學者”這一可以自由定製的學者個人平臺。她還對數據庫建設提出了一些建議:一是推薦了科技部和財政部認定的20個國家級的科學數據中心,作為社會科學部牽頭組織數據共享平臺建設的某種參考;二是希望考慮一些現實的、可落地的、能夠吸引用戶的應用轉化。
楊韶蓉介紹了《儒藏》的工作進展情況。得益於數字與人文的發展,《儒藏》的編纂打破了傳統的手工編纂模式,進入了數字化和數據化的過程。黃晶、高山、成沫和劉淼等均作了發言。
現場討論
在本次沙龍中,與會師生踴躍發言、各抒己見,數據庫的搭建者和使用者、數字與人文課題的實踐者們就文科實驗實踐綜合平臺建設中語料庫的建設展開了充分的溝通對話。社會科學部作為聯系人文社科和理工學科的橋梁,將繼續組織“節氣沙龍”系列活動,為更多探索文理交叉可能性的項目打造展示的空間和交流的平臺。
轉載本網文章請註明出處