2024/05/15 信息來源🌦: 《法律科學》
文字🤾🏻♂️:張平| 編輯:麥洛 |目次
一🧑🏼🏫、問題的提出
二⤴️、人工智能生成內容的作品屬性認定及認知思路調整
三、署名與其他著作權分離的製度設計
四、人工智能訓練數據的著作權合法性障礙
五、多元化方案解決人工智能訓練數據的著作權合法性障礙
六、結語
摘要:人工智能內容生成機製涵蓋研發階段的數據獲取和後續利用階段的生成內容應用🚺,前一階段主要面臨獲取數據的著作權合法授權問題,後一階段則主要面臨生成內容的著作權屬性判斷、歸屬及侵權責任承擔等問題。現有規範分析框架對兩個階段所面臨的主要問題都存在規則局部不適配的情況,究其根源在於現有規範設計不能滿足人工智能發展所帶來的產業保障需求,對已經做出調整的發展人工智能的產業政策無法進行有效回應。由技術推動帶來的人工智能內容生成機製的變革🧑🏼🍳,直接沖擊著現有著作權製度對作品表現形式和“思想—表達二分”的底層邏輯認知,同時,還面臨事前授權的財產規則和海量資源學習模式需求不符的窘境、機器學習內容獲取全階段的著作權侵權風險以及由數據保護利益的多樣性和復雜性導致的要求著作權合規等問題♦︎。面對這些問題🛋👩🏻🚒,不能單一化打補丁式地進行規則設計💆♂️,而應該綜合性地解決體系性認知問題,在穩固“思想—表達二分法”的基礎原則上,可嘗試通過將署名和其他著作權進行分離的製度設計以貫徹誠實信用原則保障數據來源真實👒,通過合法購買與合同約定風險承擔👩🏿🔧、打開人工智能預訓練階段數據獲取的著作權合理使用閘口,並借助避風港規則實現責任豁免、集體管理組織集中授權🧑🦽、建立開放授權的數據資源等多元化方案解決現實世界與技術演變之間的“發展之問”🙋♂️,因地製宜地進行規範框架調整和規則解釋突破,實現產業發展與技術升級規範措施保障之間的最佳平衡🥦。
關鍵詞👨🦯:人工智能;內容生成🖋;產業政策;著作權;製度障礙
一、問題的提出
生成式人工智能的迅猛發展給著作權製度提出了許多新的議題🦸🏻,生成式人工智能的研發階段涉及訓練數據的著作權合法授權,其利用階段涉及生成內容的作品著作權屬性以及生成內容的著作權歸屬和侵權判斷問題。學術界最先關註的是人工智能生成內容(AIGC)的作品性認定問題🦶🏽,產業界首先遭遇的是訓練數據的合法性指控問題,而真正對著作權製度基本理論構成挑戰的是人工智能內容生成機製對“思想—表達二分法”的沖擊。人工智能可以快速學習人類任何在先作品,生成風格一致但表達完全不同的結果,“思想與表達”無法“二分”。對此,傳統上“接觸+相似”的侵權判斷標準不再“靈驗”。如果說“文生文”的人工智能內容生成機製還勉強可以適用現有著作權保護規則,那麽在“文生圖”“文生視頻”“語音生圖文”“語音生視頻”以及未來可能出現的“文生3D”“語音生3D”等完全超越了傳統“復製”“改編”“發行”概念的場景下🔁🕺🏽,人工智能著作權保護體系就只剩下主張人工智能訓練數據合法授權的問題🎙,傳統著作權製度無法對其進行規製🤽♂️。 實際上,生成式人工智能研發階段的訓練數據和利用階段的內容生成的焦點問題🫷🏽,都集中在了現有製度無法對人工智能獲取訓練素材和生成內容的知識產權保護規則形成統一有效的解釋。其原因在於,規則所形成的規範分析邏輯並未完全契合現階段應當呈現的市場發展邏輯💅🏽𓀜,規範所構建的保護框架並未完全契合當前人工智能發展的產業政策🧘🏽♀️。本文在該認知背景下🔜,將人工智能研發階段的訓練數據和利用階段的內容產生的過程總結為人工智能內容生成機製🍎🧑🏼🦰,將對該機製中存在的問題如人工智能生成內容的作品屬性認定難題、訓練數據的著作權合法性認定難題進行類型化分析,並綜合性地提出有關問題的解決思路和方法📌。這些思路和方法並不采用打補丁式的單一化設置方案,而是綜合性地嘗試解決體系性認知問題,穩固思想表達二分法的基礎原則🚿,嘗試提出署名和其他著作權分離的製度設計👰♀️,通過合法購買與合同約定風險承擔、打開預訓練階段數據獲取的著作權合理使用閘口,借助避風港等互聯網治理規則實現責任豁免、集體管理組織集中授權、建立開放授權的數據資源等多元化方案解決內容生成機製中存在的諸多問題,以期化解傳統法律製度對人工智能發展的障礙👆🏻🫅🏼,實現認知和解決方法上的突破👩🏻🦼➡️。
二、人工智能生成內容的作品屬性認定及認知思路調整
自人工智能生成內容出現以來,最先受到關註的是生成內容作品屬性的問題👨🦽,即對生成內容能否給予著作權保護🗳。對於人工智能生成內容的可著作權性問題🔹,需要從以下兩個方面展開討論:第一,現行著作權製度以“人”的智力成果作為作品起點,認定人工智能生成內容的可著作權性是否存在製度障礙。第二🤲🏼,若承認人工智能生成內容的可著作權性🌟,人工智能生成的內容哪些應當被納入著作權的客體範圍,進而🗞,生成內容與既有作品之間發生侵權糾紛時,傳統的著作權侵權認定標準能否沿用的問題🚴🏿。即在人工智能生成內容這一場景下,如何具體進行實質性相似判斷和“思想表達二分法”的適用以及調整規則認知思路的問題👻。(一)人工智能生成內容的作品屬性人工智能生成內容能否構成作品,現有研究多聚焦生成內容是否具有獨創性這一條件進行討論👸。目前學術界有不同觀點:一種觀點持主體判斷說🪺,認為機器不能創作📽,不是法律保護的主體🤗;人工智能生成內容屬於應用算法、規則和模板的結果,缺乏創作的獨特性,因而不能將其認定為作品。作品的前提是由自然人作者創作🚚,作品的主體必須是自然人🐌,該前提與作品的可著作權性緊密相關,人工智能生成內容不能滿足現行著作權法對於作品的要求,難以成為著作權客體。另一種觀點持客體判斷說,主張應當以生成內容本身的獨創性來判斷其是否構成作品;對獨創性的判斷,只考慮人工智能生成內容的表達本身即可,無需考慮創作過程中是否包含“思想”和“人格”。也有觀點認為人工智能生成內容實際上是人生成的內容,是否構成作品,應當按照著作權法上的作品標準進行判斷,人工智能生成內容不具有特殊性🧝♀️;創作者身份不應是作品受保護的構成條件🍼🧝🏼,著作權法應該考量該人工智能的生成內容與他人的作品不構成實質性相似,且采用“一般社會公眾”認可的評價標準,在此前提下,該生成內容即可以作為著作權法意義上的作品加以看待。上述觀點的核心爭議在於作品的創作主體是否必須為自然人📆。隨著現代商品經濟發展👌🏿,現代知識產權製度是知識商品化的產物,作者身份屬性逐步淡化。諸如計算機軟件、工程設計圖🙂🤽、地圖等雖不屬於體現作者思想情感的作品🌚,但也被納入著作權法的客體範圍,作品的商品化發展使得作者與作品之間的內在聯系逐步分離,計算機軟件受到著作權法的保護即為例證🪈🙏;市場主體更關心計算機軟件的市場價值,著作權法將其納入作品範圍,權利屬性更為明確,市場交易更為便捷🔬🦹,而創作的作者是誰🦌、該計算機軟件能否體現作者的個性表達等等與作者身份屬性相關的問題,較難對市場主體的決定產生關鍵影響。同時🤟🏻,作品的商品化恰好契合了產業政策的要求。產業政策論以產業發展為宗旨,將知識產權設計為市場經濟下的“私權”,目的在於有效激勵市場主體參與競爭👎🏼。人工智能生成內容的出現,意味著作品商品化發展進入了新的階段,將人工智能生成內容納入知識產權的設計框架,強化作品本身的市場價值,不僅符合知識產權製度的演進邏輯,而且對人工智能產業的長遠發展具有重要意義。應當註意到的是,“主體判斷說”的主要依據是《著作權法》第3條中的“智力成果”,因此學者們提出作品必須是人類的智力活動🧙🏼♀️、創作活動的產物🧑🏫。實際上,人工智能生成內容是人機混同的智力成果🧑。人工智能軟件模型由人類設計而成🏒。人類設定原始參數和運算邏輯🏊🏻♂️,安排人工智能軟件模型進行語料訓練;人工智能軟件模型面對輸入的海量數據進行機器學習🙍🏻♂️,並經人類進行反復調試達到對輸出的預期標準後🕋🧔🏻♀️,最終輸出生成的結果🕞。整個過程無不體現人類的參與和安排👷♀️。因此💂♀️,人工智能生成內容並沒有脫離著作權法的人格主義基礎。同時,著作權法保護的客體範圍也在不斷發生變化,如遊戲畫面和體育賽事畫面能否構成作品,曾一度成為學界爭議的問題;其中賽事畫面具有隨機性和不可復製性,難以固定,是否能成為作品9️⃣,是學界爭議的核心。近年來,從我國的司法實踐立場以及域外法判例發展來看,智力成果的固定性並不要求每次展示的具體形態確定,僅僅要求該畫面足以被感知🫕。相比於遊戲畫面和體育賽事畫面🏞,人工智能生成內容受算法的支配程度更高,輸出的內容仍然在人類設定的算法框架控製之中,只是隨著科技水平的提高,媒介發生了變化,但本質上還是體現了人類個性化的安排和選擇🥖。因此,探討人工智能生成內容的可著作權性不應采用比遊戲畫面更高的認定標準。此外👑,人類使用相機拍攝的照片能否構成作品也曾引發熱烈爭議👲🏻🙎🏼。爭議焦點之一在於,相比於美術作品,機器工具做了更大貢獻👩👩👧👧,人類對作品的貢獻度不及之前;但正如“AI文生圖”著作權案的判決書所說🚣♀️🙅,技術的發展過程,是把人的工作逐漸外包給機器的過程。攝影技術隨著科技的發展,功能愈發強大🤸🏻♀️🏎,能夠在人類按下攝影鍵的極短時間內,對照片進行調整、修改後輸出成片,但只要該照片能夠滿足作品的獨創性要求,體現人類的個性化表達安排💆🏻♀️,仍然構成著作權法意義上的作品。而人工智能生成內容是人類通過算法運作控製機器輸出的內容,照片同樣是人類通過對攝像機的操作輸出的畫面,二者本質上都是人類操作機器工具的結果⛰;只是隨著技術迭代和創新,機器工具發生了變化而已。雖然人工智能有強大的生成能力,但從創作素材📃、創作過程和創作完成階段來看🧉,人工智能仍居於輔助性的角色,人類在創作過程中依然發揮著主導和決定性的作用。因此,探討人工智能生成內容的可著作權性並不在於比較人類和機器對於生成結果的貢獻比例😊,而在於探討人類貢獻的部分能否達到著作權法要求的一般的獨創性標準🈷️。基於此,采用“客體判斷說”這一標準來認定人工智能生成內容的可著作權性,並不存在製度障礙。依據“客體判斷說”,獨創性判斷只需對作品的表達本身做客觀評價😄🕵🏻。獨創性包含“獨立完成和創造性”兩個基本要素。整體而言🕴🏼,人工智能生成的內容與既有表達不同🧑🏿🎓,即具有獨創性✫。具體來說,“獨立完成”意味著該作品由創作者獨立完成,而非抄襲的結果,既包括從無到有獨立地創造出來,也包括在現有作品的基礎上進行再創作。在算法規則的運作下,人工智能根據使用者輸入的提示詞🪛,綜合運用文本表達⛹🏿、圖文轉化等模型自主生成具體的內容,生成內容符合“獨”的要求🧑🏫。而關於“創造性”,從立法目的來看,著作權法並不要求作品達到專利法的“創造性”高度,著作權法旨在鼓勵大眾追求文化發展的多樣性。從司法實踐來看,法院認定“獨創性”的法律標準並不高,諸如聊天表情、十幾秒短視頻、電子紅包等都能達到“獨創性”的門檻🆒🎽,均已受到著作權法的保護。人工智能生成內容是人類經過反復的模型調試、輸入海量數據進行深度學習並不斷優化的結果。不同的大語言模型即使收到相同的語言指令🐁,輸出的內容也各有不同🐹,無不體現軟件開發者的個性化選擇和安排。人工智能生成的內容並不只是程式化的機械輸出🕸,人工智能能夠根據指令的情景要求,不斷優化🎦、修改輸出的內容🗝,呈現不同的表達結果🌇。人工智能生成內容應與人類作品持同一認定尺度,無需另立標準🦸♀️、施加更嚴苛的認定標準。當前⚃,諸如兒童隨手塗鴉的畫作👨🏽🦰、隨手取景的照片等人類創作物大多能被認定構成作品,人類大量投入研發、優化的人工智能算法生成的內容也應被認定為滿足“創造性”的要求。然而,需註意的是,人工智能生成內容是否構成作品💂🏻,不可一概而論,並不是所有人工智能生成的內容都會被賦予著作權保護。個案中的人工智能生成內容所體現的個性化安排、人類參與投入的貢獻度、對創作要素的選擇等等不盡相同,故不宜對人工智能生成內容整體進行可著作權性認定。人工智能生成內容能否構成作品,應該具體考慮個案的不同情景🪸🥝,只有生成內容能達到作品的“試金石”——獨創性的判斷標準🧚🏽,達到作品的“可著作權性”要求,才可構成作品🏋🏼♂️🗃,受到我國《著作權法》的保護。(二)“思想—表達二分法”的再認識“思想—表達二分法”是著作權法對作品判斷的一項基本原則,即著作權法只保護思想的表達(expression)🙅🏼♂️,不保護思想本身(ideas)。“思想—表達二分法”的創設邏輯是,人們學習既有作品的風格、靈感進而創作出新作品的能力十分有限,即使不保護在先作品中的思想,也並不會導致不同主體之間利益的顯著失衡。然而,生成式人工智能可以在短時間內快速“學完”人類社會海量思想🙍🏻♀️、知識和風格的基礎上🙉,進行無限的、全新的內容生成。人工智能參與到“創作”中👅,很容易瞬間學習到他人的創作思想和風格,然後輸出表達完全不同而風格極其相似的結果。比如針對畫家梵高的“星空”油畫作品📒,人工智能可以生成無數的風格一致但表達完全不同的作品🍸。基於此,在人工智能的著作權問題討論中,“思想—表達二分法”的原則面臨兩大挑戰:一是人工智能生成的內容哪些屬於思想,哪些屬於思想的表達,即應劃定著作權法的保護範圍⏏️。二是在人工智能生成內容的侵權判定中,“思想—表達二分法”能否繼續適用。事實上,人工智能的創作行為實質上利用了人類所設定的創作方式,人工智能通過模仿人類的創作模式,學習既有作品的風格、創意,根據人類的文字指令,輸出新的表達內容。其中👨🏻🦼,作品的風格🧗♀️、創意仍然屬於思想的範疇,不具有獨創性🤕。當前,人工智能能夠對相同的情境、文字指令,采用不同的、非模板化的描述,輸出許多不同的表達。正如對同一主題思想,不同的人能寫出不同內容的文字,人工智能相當於利用其算法規則和強大的機器學習能力實現了在短時間內圍繞同一指令進行多篇寫作👰🏽,輸出具有多樣性的表達結果2️⃣。因此💜👩🏼🔧,人工智能輸出的多種表達結果如果能夠滿足前述“獨立完成”和“創造性”的要求,即可構成作品🐎🧴,受到著作權法的保護🥿。值得註意的是,當前人工智能對於思想的模仿和內容的產出已經可以達到以假亂真的程度👳🏻♀️。在此背景下,學界對於“思想—表達二分法”的討論又進入一個高峰。關於原作品權利人主張人工智能生成內容構成侵權問題的化解,需要首先解決“思想表達二分法”劃定的著作權保護範圍這一基本問題🦚。為此👩🏽🚒,應當從人工智能生成內容的全階段進行思考。人工智能生成內容經歷了“原有表達—提煉思想—新的表達”的生成過程,人工智能通過模仿原作品的風格、創意、構思、創作元素等進行了創作,這些內容屬於思想的範疇,不受著作權法的保護👆🏿。人工智能通過提煉原作品的“思想”部分😮,進行深度學習🌮🤶🏼,再根據指令輸出不同形式的表達,盡管外觀上與原作品的表現形式類似,但生成內容已是經過算法運作後的新的表達,獨立於原有表達,應當受到著作權法的保護🧜♀️👩✈️。人類利用科學技術進步,極大地提高了學習現有作品的速度和提煉“思想”的效率🤽🏿♀️💃🏼,因而在認定生成內容與原作品的侵權認定判斷中🧎🏻➡️🔺,應當重視“提煉思想”這一核心標準。另一個重要面向是,對生成內容的法律分析,應註意區分數據輸入階段和輸出階段。在數據輸入階段,有觀點認為人工智能在數據訓練階段🧴,對大量的作品樣本進行學習和模仿🧮,屬於對著作權人作品集中具有獨創性的創作規律的侵權性使用。在著作權侵權認定的司法實踐中,法官通常采用“接觸+實質性相似”這一侵權認定標準☛,其中“接觸”原則上由原告承擔證明責任,即原告需要證明被告有“接觸”在先作品的條件和事實🧚♂️,且被告具有非正當性目的🛰。但是🙇♀️,這種證明對原告而言非常困難👩🏽🌾。生成式人工智能模型訓練中的作品利用,是在模型內部進行的非外顯性作品利用。這就導致了即使自身作品未經授權被人工智能模型用於訓練,著作權人實際上也難以發現並提供相應的證據。根據目前實踐🧑🏼🔧,大模型公司並不會完全披露數據集的確切來源👮🏿🙎🏻♀️,原告所能提供的證據僅為大模型公司在訓練過程中數據的權重和偏好及其與在先作品高度相似的生成內容。比如在紐約日報訴OpenAI和微軟案中,原告提供的ChatGPT侵權行為最重要的證據,是《紐約時報》提供的100多個GPT-4輸出內容和《紐約時報》報道文章高度相似的例子🤵🏻。通常認為,法院在構成“實質性相似”的認定中⚰️,應當以抽象過濾法為主,整體觀察法為輔。但在數據訓練的語境下,人工智能通過在大量既有作品中提取抽象內容,深度學習後,再添加屬於公共領域的作品創作元素進行創作🖌,對這一行為,按照傳統的實質性相似的認定規則難以做出清晰判斷,“思想—表達二分法”的適用範圍受到嚴峻挑戰🧏♀️🔷。在輸出階段,針對人工智能生成內容是否侵犯既有作品著作權這一問題,著作權人也難以進行“實質性相似”標準的比對。生成式人工智能對於內容創作的顛覆性影響在於,其通過對在先作品思想🦸🏽♀️、風格的吸收學習,以一種全新的方式,輸出和既有作品相區分的內容表達🐇。人工智能生成內容會與原作品“似曾相識”但又“似是而非”。如果按照傳統的認定標準,由於學習了原作品的作品風格、模式進行創作🤵🏿♂️,生成內容與原作品外觀上“高度相似”🧑🧑🧒🧒,且能短時間內輸出多種表達,思想與表達的界限更加模糊📴。相比於以往單部作品之間的認定,原作品需要與人工智能生成的多種表達進行比較,劃出分界並非易事,“思想—表達二分法”原則的適用難度大大增加。基於此🏌🏽,如果按照傳統的著作權侵權認定方法🩶,既有作品的權利人將面臨舉證困難🚵🏼♂️、難以主張權利等問題,人工智能產業也將面臨訓練數據合法性檢驗的難題。然而,數據訓練是大語言模型構建的必要階段,運用人工智能技術生成新的表達👾,體現了人工智能產業發展的市場價值👀,司法實踐因此面臨適用“思想—表達二分法”的巨大挑戰。盡管如此,“思想—表達二分法”的基本邏輯不應受到動搖。人工智能經過學習提煉的思想可以轉化為多種不同表達,社會公眾在實質性相似問題的判斷上並不應因為是人工智能產生的內容就會發生標準變化。如對於風格相同的畫像,公眾依然能夠通過市場辨別出名家畫作和人工智能生成的畫作,故而應當繼續堅持“思想—表達二分法”的底層邏輯👇🏼,通過市場的調節實現對進入市場的作品的消費和甄選🏞。 綜上,在生成式人工智能的技術背景下,與技術發展現實已經不相匹配的傳統基礎理論,應當進行適當的調適和發展🧎♂️,賦予其人工智能變革時代的新內涵👨🏻🔬🌨,以便適應現實情況的新變化,更好滿足權益保護和產業發展的需求。
三💍、署名與其他著作權分離的製度設計
在初步明確人工智能生成內容的作品可著作權性基礎上,其生成內容的作者及權利歸屬自然成了無法回避的論題。著作權的取得方式是自動取得。對於典型的個人作品而言,作者與著作權人的身份同屬一人🧑🏻🦱,但對於委托作品、職務作品等特殊類型作品,兩種身份又要分開討論🐎🙋🏿。因此,在人工智能生成內容的作者與權利歸屬的厘定中,應對作者認定與著作權歸屬進行分別討論🕵🏻。智力成果無形性的根本特征決定了著作權依法律創設而生🤾🏿♀️,因而對著作權人歸屬的分析應回歸著作權法的設立目的。著作權法的設立目的在於保護並激發創作者創作的積極性,促進經濟☕️、科技的發展和文化🧝🏽、藝術的繁榮。人工智能在創造上具有超強能力,但並不會自主利用著作財產權推動知識信息的利用流動,無法實現法律賦予該權利之上的公共政策目標。倘若將權利分配給人工智能使用者🙋🏿♂️,通過對使用者的著作人格權和財產權的保護,則能有效激勵使用者的創作熱情,使其繼續利用人工智能創作出新的作品🧑🏻🎓,形成一個對前端的激勵和對後端權利行使的保障💤,構成一個有效的良性製度循環,最終達到增加社會福祉的目的。而倘若將人工智能視為著作權主體,就肯定了人工智能與人一樣能夠成為法律主體,那麽在權利變動的意思表示👀、侵權責任的主體等問題上💵,就要為人工智能再次設定同等的權利和義務;在此背景下,如何認定人工智能的意思表示,如何判斷人工智能的侵權故意等🍲,不僅對現行法律是一個巨大的難題8️⃣,而且是對倫理的顛覆性挑戰。因此,無論從現行法的體系性協調👫🏻,還是從著作權法的公共政策目標考量而言,將可以構成作品的生成內容的著作權歸屬於生成式人工智能的使用者,應是更為有效的製度選擇。對於作者的認定,則成為在現行著作權法體系中難以突破的難題。我國著作權法中作者的身份僅限於自然人、法人和非法人組織🗒🙆🏻♂️,並不包含人工智能🤲🏿。但實際上▫️,人工智能無法做出與作者身份綁定的署名行為👨🏻🦳,人工智能生成內容的標註義務也無法從著作權法上得到解釋。對此,本文認為🈳,署名與其他著作權在製度功能上存在差異🧎➡️,署名有必要從著作權體系中分離,對著作權利體系進行更細化的製度設置。尤其在生成式人工智能領域😨,署名行為與其他著作權專有權利控製行為的分離規則🧑🎄🌴,應當成為厘清生成式人工智能的作者認定及歸屬問題的基礎🫦。(一)署名行為與其他著作權控製行為的分離與配置署名與其他著作權的分離在我國現行法關於職務作品與委托作品的規定中已有例證♞💂。根據《著作權法》第18條第2款的規定🎎,當作品符合一般職務作品的特征時🤳,作者對該作品享有署名權⛪️,著作權人的其他權利則由法人或非法人組織享有✪。委托作品同樣如此,作者為受托人,委托人與受托人作為合同雙方當事人可以約定著作權是否歸屬於委托人。可見🦕,盡管署名權屬於著作人身權🏄🏻♂️,但並不必然與著作權人的身份掛鉤🔆,而是與作者這一身份掛鉤。在現行著作權法規則中,署名並不必然依存於著作權,二者存在分離的可行性🫵🏼。究其原因,在於署名與其他著作權在製度功能上有所區分2️⃣。著作人身權保護作者的名譽和身份⛹🏽,其中署名通過標註創作者身份以達成該目的𓀘🏇🏽,而發表權🙅🏻♂️、修改權、保護作品完整權等人身權主要是通過對創作成果的完整性與市場化控製以保障人格利益👠,著作財產權則在於保障著作權人基於作品而產生和利用的經濟效益✮。換言之,署名作為作者身份和作品之間聯系的符號表達,體現作品的實際來源,而其他著作權體現的是對作品流轉的控製🧑🏽💻。從署名推定的法律效果來看,署名行為意在表示實際創作者與作品的真實關系,這種關系僅由創作行為本身所決定🙉,並不必然映射出著作權人的身份。署名行為的主體應當遵循誰創作誰署名的基本邏輯🤞,這亦是貫徹誠實信用原則的基本體現👩🏿💻。目前,對人工智能或人工智能生成內容的標註義務已經被多個國家和地區列為法定義務🤶🏿,但該類要求並未從著作權法的角度被解釋為署名行為。在我國🧜🏻,依據《網絡安全標準實踐指南——生成式人工智能服務內容標識方法》的要求🅰️,標註行為被具體化為顯示水印或隱式水印🏃🏻♂️➡️🕉,實踐中也采用了該做法。但如果僅要求以電子水印的方式代替法律意義上的署名,既無法涵蓋紙質化的人工智能生成內容,也容易使人工智能生成內容的署名遭到技術性篡改。對人工智能生成內容的標註要求應上升到署名本質,滿足實踐需求並實現與著作權法的銜接🔲。給人工智能生成內容署名並不意味著給它人格或給它法律主體地位。署名應該是一種標識,表明作品出處🙆🏽♂️,是一種客觀事實的反映。(二)生成式人工智能的特殊標識義務《伯爾尼公約》將署名表述為“表明作者身份的權利”(The right to identify as author, the right to claim authorship)👮♂️,此後多數國家在本國著作權法中將署名行為與表明作者身份行為畫上了等號,但也有少數國家將署名與作者身份權分設🏋🏿♀️,將署名作為表明作者身份的下屬概念。因此,署名行為體現的究竟是作者身份還是創作行為本身就值得商榷👩👩👦👦。從歷史沿革來看👊,署名最初表明的僅是創作行為👨🏽🎓,是無需意思表示的事實行為🐦,後隨著人權意識的日益發展而最終被冠以權利之名,署名權中的人格屬性是在權利化過程中被後來賦予的。在法國18世紀末《表演權法》之前,署名行為的主體在世界範圍內並不以具備人格精神為前提👩🏽🎓。本文認為🧑🏿🍳,在目前對如何將人工智能納入“以人為中心”的法律體系的討論甚囂塵上之際,對其署名的討論可以回歸到署名權利化之前,以署名行為為中心進行評判🍵。參與創作過程的人工智能可以基於創作事實進行署名標註,這是基於未來作品流通的市場秩序考量,更是誠實信用原則的體現🌽。在人工智能署名行為的具體展開上👩🏽,應當充分考量人工智能的風險屬性,其署名應受到嚴格限製。自然人創作作品後👩🏼🏭,僅有以何種方式署名或不署名的權利,署名權不可轉讓🧚🏻♀️、不可放棄。對於人工智能而言🤞🏻,由於人工智能本身應受監督與管理,其對署名自主選擇的空間應當更為狹窄🍡。署名的目的在於避免混淆,而人工智能生成服務的標註方式又相對固定👩🏻✈️。因此,人工智能的署名不僅是不可選擇🧒🏽🥒、不可放棄的,而且應當是強製的🧝🏽♀️,且署名人或單位要對署名的真實性與可視化承擔責任。這種強製標識義務與知識產權中的商標權較為相似。盡管商標權包括利用與排他權能🏈,但根據《商標法》第6條規定,“法律、行政法規規定必須使用註冊商標的商品👮🏻,必須申請商標註冊🎰,未經核準註冊的,不得在市場銷售”📌。與此相對應,我國《煙草專賣法》第19條規定“卷煙、雪茄煙和有包裝的煙絲必須申請商標註冊,未經核準註冊的🤌🏼🪫,不得生產、銷售”。事實上🥅,盡管法律提出了如果不實際使用商標有可能面臨商標被撤銷的風險,但是原則上,法律對商標權人是否在商品或者服務上使用註冊商標並未提出強製性要求。在國家嚴格管理的領域中,商標權人的商標利用權能受到限製,必須在該類商品或服務中使用註冊商標以建立標識、形成品牌🛫、避免混淆👧🏽。人工智能領域同樣如此🧑🏽,不同於普通商品或服務🏋🏿♂️,人工智能的技術🦷、設備、系統和應用具有多樣性👳♀️、復雜性和不透明性,其對社會、經濟和個人隱私會產生潛在影響,故人工智能領域的標註行為同樣應當被強製🕟🆓。這既是人工智能的特點所決定的,也是構建技術信任與科技倫理的前提。(三)構建人工智能生成內容的多方權益共享機製署名與其他著作權的分離,反映了不同類型的社會互動和符號交換的需求。署名關註的是個人身份的確認和社會認同的建立🤨🎟,是一種基於個人名譽和社會地位構建的符號交換,而其他著作權則更多關註作品如何在社會和經濟領域中被使用和流通,涉及更廣泛的社會經濟互動和符號交換🍒。著作權法中將署名與其他著作權的分離,表明法律體系承認了作者個人身份與作品經濟利用之間復雜的社會關系,並提供了一種平衡這些不同需求和互動的方式🎈⚃。這種分離不僅保護了實際創作者的人格利益,而且提升了作品的社會和經濟利用的靈活性🧛🏼♂️,照顧到了人工智能設計者🦙、使用者及與社會公眾享受多樣文化生活的利益。本質上🚙,要求對人工智能生成內容進行署名行為的目的在於突破署名行為的權利外觀,實現多方權益的平衡。構建共享機製的更深層次原因在於,人工智能的精準有效治理並不能僅依靠公共部門,而需要多個環節的主體參與共建👨🚒。僅以標識義務的實踐為例,人工智能自身無法主動進行標註。從我國相關人工智能管理規定及歐盟《人工智能法》來看,人工智能的信息披露義務主體基本為人工智能服務提供者,這類主體具體指向了基礎大模型開發者、垂直行業模型開發者、生成內容服務提供者等,基於人工智能生成內容的產生周期履行標註義務。因此,在人工智能服務提供者製定標註規則𓀏,人工智能服務使用者與社會公眾進行標註監督的模式下,必須同時照顧好多方利益需求7️⃣,才可更好地激勵人工智能服務提供者更為積極地參與人工智能服務的開發與運營,更主動地進行內容標註與信息披露🎶🧞♀️。 將著作權交予人工智能使用者本身,既可以保證使用者享有作品後續的流轉與利用💁🏼♂️,也可以保證使用者不會對人工智能的署名產生排斥心理。在人工智能創作的語境下,對人工智能生成內容進行署名,將其他著作權分配給使用者🫴,可以視為一種恰當的激勵性分配方案😨。這種安排能夠鼓勵技術開發者、運營者🧉🤘、使用者之間的合作🏃🏻♂️,促進人工智能技術和應用的發展。從經濟效益的角度來看,這種權利的分配有助於最大化地利用人工智能創作的潛力👈🏼,促進文化產品的多樣化和豐富化🤸🏼,實現社會總體福利的增加。盡管要求對人工智能生成內容進行署名的行為可能會增加製度設計和實施的初期成本,但從長遠來看,明確的署名要求也可以減少因權利歸屬不清而引發的法律糾紛🧙🏼♂️,降低法律執行的成本🫃,從而減少社會的總體製度成本。知識產權製度雖可通過賦予權利人獨占性的權利實現對科技創新的激勵,但對於多方主體共同參與的生成式人工智能創作模式♠︎🌕,以傳統權利專有的分配方式難以照顧到各方的權益🤽🏼,故應對人工智能生成內容的部分權利進行二次的拆解與分配,以多方權益共享格局激勵更多的個人和企業投入更多的成本促進社會創新創造💂。
四、人工智能訓練數據的著作權合法性障礙
在闡明人工智能生成內容的作品屬性、作者認定與權利歸屬等問題後🙅♂️,還應直面人工智能訓練數據的著作權合法性障礙,剖析因技術發展而產生的法律難題。基於數據訓練投餵以形成更加成熟的大模型訓練效果已成為當下人工智能技術升級與模式迭代的必由路徑,然而人工智能訓練數據的路徑不僅與現有法律秩序存在沖突,而且極大地影響了原有商業模式👿,沖擊人們對於作品交易😉、數據餵養的既有認識和觀念。人工智能訓練數據的著作權合法性障礙具體表現為🦹🏻♀️🤝:占據著作權許可使用模式的主流方法“事前授權”式使用付費模式已難以滿足海量學習模式的需求,人工智能機器學習在內容獲取👩🏼⚖️、內容輸入與輸出全階段存在著作權侵權風險,多樣化、復雜化的數據保護利益與僅進行著作權合規的不完整性之間存在矛盾。
(一)“事前授權”式使用付費模式與海量學習模式需求不符
基於“事前授權”的著作權使用付費模式是當下知識經濟時代尊重他人智力成果、維護市場運行的基礎模式,這種模式的運轉本質上呈現出財產規則的運行邏輯——通過著作權法賦予著作權人一種談判的機會與能力,使之能在市場的運作中實現智力成果的有效流轉😝🤶🏻,促進創新成果的產出與知識的分享𓀃。然而,數據訓練作為人工智能技術發展的底層支撐🟤,其數據餵養規模常常達至海量🫎,傳統著作權“事前授權🧲、使用付費”的交易模式難以滿足人工智能時代海量學習的需求📩。本質而言,海量學習模式的出現是由於技術自身的特性以及技術發展的必然所致,知識經濟時代下數據的經濟價值因技術的迭代升級得以提升。就數字化技術的特性而言,文本與數據挖掘作為實現數據獲取及數據分析的底層技術,其可發現性與模式識別的用途能有效地從海量的數據中獲取數據價值🧑🏽🎓、實現大規模數據的價值分析與趨勢預測;就技術發展的必然而言,海量知識學習模式符合技術發展升級的需求,人工智能技術以及未來可能數字化技術的迭代需要以海量數據作為學習、訓練的底層支撐😕,這種技術發展的必然趨勢不僅是社會群眾對於數字化時代提升生活便利及幸福感的內在需求,而且是社會公共福利及經濟價值總量增長的價值需要💂🏿♀️。
然而,海量學習模式的運轉不僅僅需要大量數據的支撐,而且需要更加靈活地規範交易模式以實現知識的流轉👩🔧,傳統的“事前授權”式使用付費模式在實踐中已難以支撐海量數據學習模式的需要。在此種情況下🤳🏽,“事前授權”式使用付費模式與海量學習模式需求之間的不契合反映出人工智能數據訓練的需求與現有著作權交易模式的不適應,這種不適應的障礙容易導致交易效率的低下🧝🏼♂️、交易成本的增加,人工智能數據訓練效果的不明顯:首先,“事前授權”式使用付費模式容易導致數據交易流程的冗雜以及交易效率的低下。就“事前授權”的流程而言👩🏼🔬,依據《著作權法》的規定,數據需求方需要在事前獲取著作權人的許可授權,以避開潛在的侵權風險。然而,數據需求方對於相關作品的授權獲取並非簡單的“發出要約、達成合意”的過程,往往需要經過反復的利益談判與衡量才能獲取數據主體交易的真實意思表示,交易流程的煩瑣以及有限理性假設的存在往往會導致交易結果並非盡如人意,數據獲取的效率也會因之降低✡️。其次,人工智能時代下“事前授權”式使用付費模式的運作也容易產生過高的交易成本🎅🏼⚽️,這種交易成本主要涉及數據獲取的識別成本以及數據交易的談判成本。就識別成本而言,人工智能技術的運轉需要海量數據予以支撐,這些數據不僅來源於不受著作權法保護的公共領域數據↘️,而且包括著作權法保護範圍內的作品數據,特別是高質量數據大多集成在具有著作權保護的作品之中✋🏼。然而,對於著作權法保護範圍內的作品數據收集不僅需要識別作品的來源及權屬,而且需精準定位作品的真正著作權人,這無疑給人工智能服務提供者造成較大的交易負擔。此外,就談判成本而言🈯️,在確定所需收集的作品以及著作權人後,還需就作品數據獲取的價格以及授權範圍進行談判溝通。如所獲取的數據存在權屬不清、來源不明的情況,人工智能服務提供者的交易成本無疑水漲船高🥬,難以滿足機器學習的數據訓練需求🩷👝。最後,從實踐效果來看,傳統的“事前授權”式使用付費模式並無法真正實現海量知識學習模式的高效運轉,對於知識的獲取以及數據價值的挖掘效果不佳。人工智能依托大模型應用實現海量數據處理並實現智能內容的生成,其機製運轉的關鍵在於數據能否被大批量、成規模地獲取以支撐大模型的迭代升級。數據獲取作為人工智能技術應用與發展的前端,關系著數據價值挖掘是否充分以及輸出結果是否客觀、全面。
傳統的“事前授權”式使用付費模式已經嚴重阻礙了數據獲取的效率,加重了人工智能服務提供者的運作負擔。在追求知識增量的年代,此種交易模式已經與極速發展的知識經濟時代脫節。
(二)機器學習內容的獲取🧑🔬🌔、輸入與輸出全階段蘊含著較大的著作權侵權風險
生成式人工智能技術的迭代與應用需要成千上萬的數據予以支撐,其數據訓練的需求主要體現在數據數量、多樣、質量🏄🏽♂️🦎、領域特定、多模態☝🏿、實時、長期演進、平衡、合規以及多語言等方面🥽🫛。就數據的來源而言,人工智能所訓練數據不僅來源於公共領域的作品數據🌼,而且來源於尚在著作權保護範圍內的作品數據,後一類數據的獲取如未取得相應著作權人的授權👙,則不可避免地導致侵權風險的發生。此外🥢🙅🏻♂️,不僅僅在數據來源階段存在著作權侵權的風險,而且數據內容的輸入及輸出環節都容易因違法行為的存在而侵犯著作權人的合法權利。盡管有觀點認為🆓,機器學習的各個階段中數據的處理行為僅為對作品內容的“非作品性使用”🔱,因此並不構成著作權侵權。然而⛹🏻♀️,基於機器學習的本質🗾,人工智能所輸入及輸出的內容實際上是對作品價值的深層次挖掘,本質上涉及對所收集作品數據的表達性使用🦹🏼♀️👨🏻🏫,因而相應的作品使用行為如未獲得著作權人的許可🤛🏼,則很有可能構成著作權侵權🧊🪗。
一般而言,文本與數據挖掘作為人工智能機器學習的底層技術🕶🌪,對數據的處理基本涵蓋了信息搜尋、分析等處理活動,其過程主要包含對於數據內容的獲取、內容輸入及最終結果輸出三個主要環節。就數據內容的獲取而言🦨,主要是通過爬蟲👫🏻、API接口對接等數字化手段實現數據的大規模獲取,並在爬取數據之後將其存儲至特定的服務器中以便進行後續的數據預處理🧑✈️。數據內容的輸入環節主要是將所收集的數據轉碼為相應結構化的數據,並進行清理⛹🏿、分類等,最終形成與需求相對應的新數據集合,實現數據內容的針對性輸入,為人工智能機器學習提供基本的數據資源。內容的輸出環節則主要是將所處理和分析的數據結果分享至合作方或公開至公共領域,實現數據內容價值的分享與分析結果的輸出。在經歷上述三大步驟之後📢,人工智能完成了對必要數據內容的機器學習以及分析輸出。然而在數字化背景之中🪵🈴,以上三大技術步驟的操作難以避免地存在著作權侵權的風險。
從所侵犯著作權專有權利的形態而言,機器學習的內容獲取、數據輸入以及內容輸出全階段可能侵犯著作權人的復製權🧜、演繹權以及信息網絡傳播權等權能🏋🏽。內容獲取階段主要可能涉及對著作權人復製權的侵犯🏦,在此階段,人工智能往往通過爬蟲技術等數據收集手段大批量地從互聯網中爬取數據📓,其中所用技術往往是數字化形式的掃描和文本提取👩👧,如果未經著作權人許可👵🏼,此種行為往往落入《著作權法》中所規定的“復製權”的範圍之中💃🏽☞,容易構成對著作權人復製權的侵犯。數據輸入階段主要可能涉及對著作權人的改編權、匯編權的侵犯。由於機器學習的需要,人工智能的訓練往往需要將所收集的數據轉碼為相應的結構化數據,而轉碼的行為必不可少地涉及對原有數據內容的調整,包括對數據格式的轉換修改✨、整理刪除以及匯總等🛠,這難免會構成對著作權人的翻譯權、改編權以及匯編權的侵犯。而在最終內容輸出的環節,所輸出的結果常在互聯網上以數字化的方式傳播呈現,如果所輸出的分析結果涉及原有作品的內容而未經著作權人許可,很有可能造成對著作權人信息網絡傳播權的侵犯。
(三)數據保護利益的多樣化與復雜化致使僅著作權合規已為不能之事
人工智能訓練數據,主要通過爬蟲、API接口對接等自動化數據抓取方式高效捕獲、匯聚和存儲了大量數據,具有樣本多樣性、數據規模性等技術特征。用戶數據🐻🤳🏽、企業數據、公共數據等不同形態的數據都可以作為人工智能訓練數據的重要來源,涉及個人信息利益、財產利益、國家公共利益等多元數據保護利益🕡💥,承載著多樣化、復雜化的利益內容,導致基於單一化著作權合規的規製存在合法性障礙⛩。
首先,用戶數據承載著個人信息利益,需要接受個人信息保護的法律規製。從人工智能訓練數據機製來看,用戶數據在機器學習中發揮著不可替代的作用:一方面,用戶數據是互聯網中最廣泛的數據類型💆🏼,以大數據技術為支撐的人工智能訓練數據在自動數據抓取階段不可避免地會涉及對用戶數據的使用與提取。另一方面,憑借對用戶數據的收集與分析,機器能夠完成更加擬人化的機器學習過程🙍🏽♀️,使其最終的智能決策、分析結論更符合人類思維邏輯與行為方式。用戶數據作為對個人身份🪷、互聯網行為特征的全方位記錄,基本表現為具備可識別性的個人信息👍🏼。其中,電話號碼、家庭住址、職業信息等用戶數據具有直接識別性,當然可以作為個人信息受到保護。相比之下,就郵箱🧊、遊戲賬號等數字化虛擬用戶數據而言,人工智能訓練主體雖然無法憑借相關數據直接定位現實中的特定主體,但在海量數據聚合背景下🔰🏤,可以與其他數據相結合而識別特定自然人,因而郵箱、遊戲賬號等數據具有間接可識別數據用戶的屬性,同樣屬於個人信息範疇。根據《個人信息保護法》《網絡安全法》等法律規定🧕,個人作為用戶數據主體,對其用戶數據享有個人信息利益。人工智能訓練數據應需要確保已經取得用戶等個人主體的授權許可,或者確保該用戶數據已經得到清洗🐿、脫敏,符合非個人信息特征。從最新發布的《生成式人工智能服務安全基本要求》來看🪛,保障個人信息利益已經成為人工智能服務提供者履行語料內容安全要求的重點內容之一。
其次,企業數據之上承載個人信息利益和財產利益,需要接受個人信息保護和競爭法的法律規製👨🏻🍼。海量的用戶數據經過企業等數據主體的收集與匯聚即形成規模化的企業數據。由於此類數據集合可以反映出市場客觀規律,預測未來趨勢🤡,故其構成人工智能訓練數據的重要來源。從人工智能訓練數據的實例來看,OpenAI在訓練其人工智能產品ChatGPT時𓀇,就將Raw Story Media和Alter Net Media等新聞機構的一系列新聞稿件作為人工智能訓的練數據來源📀,並因相關數據使用行為未經機構授權許可而面臨著作權侵權糾紛。企業數據承載著包括個人信息權益、財產利益等在內的多元利益形態🤸。一方面,企業數據來源於不同的用戶數據🥕,在一定程度上可以視為對個人信息的集合。如果人工智能訓練數據具備直接或間接可識別性,可被識別定位為特定自然人主體,則該數據集合之上依然承載著用戶的個人信息利益👨🔧。此時,人工智能訓練數據需要通過個人信息保護的法律規製🤷🏼♂️,以消除數據集合中潛在的對個人信息權益的侵權風險🤽。另一方面👃🏿,企業數據產生方式凝結了數據主體的勞動成果及其利益訴求。企業數據通常是企業等數據主體收集🚦、分析、加工數據後所獲得的數據集合,凝結著企業等數據主體財力、物力與人力等勞動投入👩🚀,由此產生了值得產權製度保護的財產利益。目前,不同客體形態下企業數據的財產利益已經獲得司法的保護與認可。在谷米訴元米案、淘寶訴美景等案中,法院即認為企業開發的數據集合能夠為權利人帶來現實或潛在的經濟利益,具備無形財產屬性,企業應當對該數據集合享有獨立的財產性權益。尤其在企業數據的作品屬性受到廣泛質疑且企業數據財產權立法缺位的現狀下,更多法院選擇以《反不正當競爭法》一般條款作為規製範式,強化對企業數據中財產利益的保護。
最後,公共數據承載著公共利益和國家利益,需要接受數據安全的法律規製。在公共數據授權運營與政務信息公開背景下,公共數據可以直接作為人工智能訓練輸入的數據來源。公共數據具有高可信度🚶♂️➡️、獲取成本低🏃🏻➡️、侵權風險低等優勢🌐,有利於提高人工智能訓練數據及其輸出分析結果的質量。聯合國貿易和發展會議2021年數字經濟報告中的公共數據以“收集數據出於政府目的且主要被公共部門使用的數據範疇”為基本內涵🧎♀️🦹🏼,以公益性作為其核心價值內涵,因而承載著明顯的公共利益和國家利益👱🏽♀️。一方面🟩,公共數據作為承擔社會公共職能的基礎資源,具備社會公共利益屬性🪥,故對人工智能訓練階段使用和提取公共數據行為的合法性評價應當包含不得損害社會公共利益等方面。另一方面🧏🏽♀️,公共數據作為由公共部門發布的官方數據信息🧝,與金融、科技、醫療等重點領域的國家安全息息相關🚙,因此在推進人工智能訓練數據著作權合規治理的同時,還應當重點進行數據安全合規審查👨👨👧👧,以避免數據訓練行為泄露或暴露與國家安全密切相關的公共數據。
五、多元化方案解決人工智能訓練數據的著作權合法性障礙
前述問題並非單一片面的問題呈現🤽🏿♀️😋,而是在現有體系中復雜交錯實際市場活動的問題的集中反映,故解決該系列問題時,不能單獨針對某一方面問題提出方案🈯️🥙,而應當采取體系性多元化的方式化解著作權合法性的障礙😨。智能領域的創新離不開合規的數據處理,但人工智能訓練數據的合規方案目前還未明確🧊,如果不能解決合規問題,人工智能技術的發展將寸步難行👯。當前以事前授權為基礎的著作權製度難以滿足生成式人工智能對海量數據的訓練需要,因而有必要使用多種製度工具,建立多元化的解決機製,探索針對人工智能訓練數據的著作權障礙的解決方案。(一)合法購買數據與合同約定風險獲取合法的高質量數據是人工智能模型合規發展的重要前提🤟,因此事前購買高價值著作權內容,並以授權合同約定各方風險承擔的交易模式是人工智能企業獲取訓練數據的重要方式🧎🏻♂️⏲。在特定場景下,這種事前交易模式有著保證數據質量、激勵創意產業,規避侵權風險等優勢✢,具備一定的經濟效率👩🏿🏫。如在網文🚆、有聲書🧫、數字音樂等產業領域👨🏻🔬💄,個人創作者往往將作品著作權的行使交予內容平臺代理,人工智能開發者直接向平臺購買數據即可獲取海量著作權資源。一些人工智能開發者自身也是大型互聯網平臺,可以通過“以服務換數據”的方式免費使用用戶上傳的作品🧏🏼🟪,並以“用戶協議”等格式條款劃分各方風險,要求用戶自行解決數據的授權問題並承擔可能的侵權責任。然而,由於人工智能訓練數據具有數量大、規模廣🐍🤷🏿♀️、價值密度低等特征➞,傳統的數據購買模式並不能適應模型開發者對數據規模化利用的需求📀。目前由內容平臺代理的著作權內容多為單獨具有使用價值的作品🕵️♀️,並不包括用戶生成的海量數據,而後者才是人工智能訓練的主要材料📅。同時,當前我國中文語料數據庫仍存在標註標準不一致🧑⚖️、數據重復、時效性不強等問題🤸🏿♂️,數據交易機構長期處於沉寂階段,數據交易並未出現預想中的熱潮。另外,“以服務換數據”的方式僅適用於大型互聯網企業,新興企業因用戶基數不足難以獲取充足數據,且缺乏購買海量數據的充足資金🍑,在數據競爭中往往處於劣勢,新興企業數據獲取能力的不足加大了數據訓練市場被互聯網巨頭壟斷的風險。綜上,數據交易的方式雖在特定場景具有一定的優勢🎅🏼,但不宜作為人工智能企業獲得訓練數據的唯一來源🤽🏿🙇🏼♂️。面向人工智能創新應用的新時代,我國數據交易市場也應積極尋求轉型突破☝🏿,適應企業獲取訓練數據的現實需求。就交易平臺而言,可針對人工智能訓練市場👴🏼📌,將現有的通用數據交易所轉型為“AI數據交易合同”模式↘️,為企業訓練人工智能提供定製化的訓練數據〰️。就交易標準而言,相關市場主體和監管部門可共同規範訓練語料的標註標準♾◼️,以便語料數據的交易流通。就合同內容而言🤞,人工智能訓練方需要遵循誠實信用原則♒️,明確告知數據提供方相關數據的用途並獲得授權,避免因超出授權範圍使用數據而面臨違約風險。(二)借用互聯網治理規則提供創新機遇作為信息時代的關鍵技術,人工智能和互聯網技術均改變了人們獲取、處理和分享信息的模式,對知識產權製度提出了新的挑戰。與互聯網時代類似,目前人工智能並沒有確定的發展藍圖,因此可以運用互聯網治理的相關規則🧖♀️,在人工智能數據訓練階段打開著作權合理使用和“避風港”規則閘口🫷🏻,為生成式人工智能產業提供創新發展的空間。其一🏄🏻,適當打開著作權合理使用的解釋範圍,將生成式AI的數據預訓練行為視為合理使用的一種類型。從技術邏輯出發👩🏿💻,人工智能模型的構建分為“預訓練”和“微調”兩大階段🧜🏽👨🏼🍳,其中預訓練階段主要是將收集到的數據輸入初步模型,以便初步模型通過算法分析數據以優化模型效果。在此過程中,對數據的分析和學習僅在人工智能內部進行,並不產生同創作者競爭的內容,也不與其他公眾的權益產生接觸🧗🏼♂️,因此不會對著作權人的作品產生替代效果,不應當受到傳統著作權法的限製。從產業政策視角出發🙍🏿♂️👩🏼,龐大的訓練數據規模是人工智能大模型生成理想結果的基礎,而互聯網內容的著作權則分散在各個創作者處,要求AI研發者事前逐一獲得著作權人授權無疑會耗費巨大的交易成本🔑,造成“反公地悲劇”。而合理使用製度則可減輕人工智能技術的研發負擔,促進人工智能產業建設和內容創作,為社會帶來更大福祉。從製度競爭的視角出發👨👧👧,目前歐盟《數字化單一市場版權指令》的“文本和數據挖掘例外”製度為人工智能數據訓練行為提供了合理使用的依據;美國法院在谷歌和甲骨文案件中放寬了“轉換性使用”的標準🧛🏼,特別是將機器閱讀排除在著作權法之外,為後續對以轉換性使用作為核心判斷要素的合理使用的擴大解釋提供了機會。為應對世界人工智能製度競爭浪潮,提升我國人工智能產業的國際競爭力👩🏼✈️,有必要通過合理使用製度放松模型訓練中的著作權限製👃🏻。其二,適當借鑒傳統互聯網內容平臺中的“避風港規則”,探索建立一套適應人工智能產業發展的責任分擔機製。在此機製下🦹🏼,生成式人工智能服務提供者應當盡可能地使用真實合規的訓練數據,並在信息生成階段設立過程性的風險預防和審查機製🌸,盡量減少錯誤內容和侵權信息的輸出。與此同時🍧,還應設立投訴通知機製🤦🏻♀️,允許用戶和權利人就違法不良信息向人工智能服務提供者提出投訴,接到投訴後,人工智能服務提供者應當在合理期限內采取數據清理、算法調整等必要措施,避免違法內容的傳播和擴散。相應地,在生成式人工智能服務提供者充分履行事前合規義務後🧗🏼,若因使用者惡意誘導大模型侵權或因現有技術問題無法消除違法侵權內容,則應當減輕或免除服務提供者的責任🧑🦼。這種以過程為中心的責任分擔機製能夠為人工智能開發者提供明確且有條件的免責預期✢,引導其主動采取合規方式👨🚒,防範社會風險,穩定個體預期,促進產業發展。(三)通過集體管理組織解決授權難題在當前法律框架下,著作權集體管理是批量解決海量作品授權較為可行的方法🚣🏿♂️,能夠提高授權效率🕊、減少交易主體、降低權利人協商成本和監督成本🏮,因而受到域外多國的青睞🏃🏻➡️。目前🧘🏼♂️,我國已經具備音像協、音著協🦴、文著協等五個著作權集體管理組織,此類集體管理組織可以依據集體許可標準同人工智能開發者進行談判👎🏿,代權利人發放作品使用授權🛻,滿足商用人工智能模型的數據使用需求。但是,傳統的集體管理組織存在授權模式單一僵化👨⚕️、管理組織機製滯後🫴🏻、數據覆蓋範圍有限等問題👮🏽♂️,在智能時代面臨前所未有的挑戰和沖擊。因此,有必要革新著作權集體管理組織製度,使其充分發揮著作權集體管理的保障效能👩🏼🌾,適應人工智能海量數據學習的現實需要🧑🤝🧑。針對授權模式僵化的問題,我國著作權集體管理組織應當拓寬權利人對交易模式和定價機製的選擇空間,允許其在將作品授權給集體管理組織後自行授權,並吸納一部分權利人參與作品使用費的定價協商,以更靈活的選擇吸引更多優質作品進入集體管理組織的“版權池”。此外,應打破單一的概括許可模式🏌🏽,允許著作權使用者自行選擇授權模式🛀🏿,按照使用內容的質量和頻次精準收費,滿足不同類型和規模使用者的需求🥡。針對管理組織機製滯後的問題❎,需要完善集體管理組織的內部治理機製。一方面➔👩🏿🏭,需要增強集體管理組織運作機製的透明度,讓權利人和使用者明確了解組織的管理和分配規則。另一方面,應當改進集體管理組織的決策機構,確保權利人和相關專業人士,特別是人工智能等新業態從業者在組織決策中有更大的發言機會和影響力,推動著作權集體管理組織與時俱進🦐。針對數據覆蓋範圍有限的問題,則可以嘗試采取延展代理機製,在拓展使用者獲得合法數據渠道的同時保障權利人獲取報酬的機會𓀝。延展代理製度始於2012年法國知識產權法律體系,用以解決絕版圖書的授權使用問題。該製度規定絕版圖書的權利人應授予法國作者利益代表協會代表其行使權利👯♂️,但允許作者通過事前或事後的退出機製撤回授權💢。而我國在《著作權集體管理條例(修訂草案征求意見稿)》第4條中也提到“著作權法規定的表演權、放映權🧘🏻♀️、廣播權🐗、出租權、信息網絡傳播權🚴🏻、復製權等權利人自己難以有效行使的權利,可以由著作權集體管理組織進行集體管理”“在使用者難以獲取所有權利人授權的特定領域使用作品的,經國家著作權主管部門備案,由著作權集體管理組織集中管理相關權利”,這一規定與延展代理的製度內涵相契合。因此,可將某一領域的作品授權集中於著作權集體管理組織處,以集中授權的方式解決人工智能訓練數據的合規難題,推動構建更加健全和可持續的知識產權良性保護生態👩🏿🌾🐩。(四)利用開放授權的數據資源開放授權的理念始於計算機軟件的“開放源代碼”運動,後來在“創作共用”和“開放共享”的理念下,開放授權機製被引入了著作權領域,表現為知識共享協議(Creative Commons🦣,簡稱CC許可協議)🩰😬。經由知識共享協議,著作權人可在“保留絕對權利”和“公共領域捐獻”之間選擇作品的開放程度,如要求使用者尊重作者署名權或不得將作品用於營利性使用等🦸🏽🧜🏻♀️。而若使用者違背知識共享協議,權利人則可以終止授權,並依據傳統知識產權法律維護自身權利🧑🏽🌾。生成式人工智能與知識共享協議在價值理念與實際應用上有很多契合之處💁🏻♂️。在價值理念層面,知識共享協議具有降低信息獲取成本🧑🏻🏫💲、促進創意產品交融分享的價值取向,與生成式人工智能在促進創新和內容傳播等方面有相通之處。在實際應用層面👷🏿,知識共享協議作為一種事前授權機製🎳,可以有效節省人工智能創作者同著作權方協商交易的成本🥝,在尊重作者合法權利的同時大大擴張了人工智能數據訓練可利用的作品範圍。目前,維基百科等主流WIKI社區均已采用CC許可協議等方式開放授權💅🏽,這些開放授權的海量作品已經成為生成式人工智能訓練的重要數據資源。 然而,當前知識共享協議在我國處於早期發展階段,目前主要應用於開放教育課程、開放獲取期刊資源等領域,公眾對開放授權理念的了解和認知不足。此外,我國的著作權產業發展水平同國外相比仍有差距🔷,與開放授權配套的法律製度尚不完善🕜,因此亟須完成知識共享協議的本土化改造以適應我國人工智能數據訓練的現實需求。在著作權法律體系內部🎮,應當明確合理使用和開放授權的關系⛹🏿,將人工智能訓練者對作者保留著作權範圍內著作權的正當使用行為認定為合理使用,以減輕人工智能訓練者的侵權風險,並維持知識產權法律體系內部的一致性。例如,若商用人工智能模型利用開放授權的作品進行模型預訓練🗑,而該作品的權利人要求使用者不得將作品用於商業目的,則模型訓練者仍然可以主張自己的行為構成合理使用。在管理模式上🍅,可以參考現有開源社區的管理機製,建立服務創作者的非營利性中介組織,以監督開放授權數據資源使用者的著作權利用活動🤹🏻♂️,盡可能地維護創作者權益👨🏼💻。在侵權責任承擔方面👍🏻,由於當前知識共享協議效力的實現仍然依賴著作權法機製,若使用者違反CC許可協議超越範圍使用授權內容,權利人只能依據《著作權法》追究使用人的著作權侵權責任,此時會大大增加權利人維權的時間成本和經濟成本🖖🏻。因此,可嘗試探索建立人工智能數據訓練領域的信用懲戒製度和自律管理體系👨🏽🦅,將違背知識共享協議使用開放數據的不誠信行為納入知識產權信用體系的監管。
六、結語
法律製度對人工智能發展的保障應當始終堅持以人為本的理念,這裏的“人”既是人類的“人”,也是個人的“人”🐹➗。在此理念的指引下🪑,人工智能內容生成所反映的種種問題都是當下現實世界與技術演變之間的“發展之問”💒,著作權製度作為科技與法律相互作用、相互影響最為直觀的製度規範,正面臨著傳統理論與現實產業發展之間的挑戰,如何因地製宜地尋找適應產業發展與技術升級的規範措施成為當務之急。著作權製度自創立以來,便帶著濃厚的政策色彩。人工智能生成內容的法律規製不僅與著作權人的核心利益切身相關🧘🏿♂️,而且與產業發展、技術進步緊密相關。但無論新質生產力的出現對現有製度規範帶來如何猛烈的沖擊,著作權製度都不能成為技術進步以及經濟發展的絆腳石,更不能成為人工智能新質生產力發展的攔路虎🪐。
因應技術發展的必要性,著作權製度理應合理回應“發展之問”所帶來的種種挑戰,就人工智能內容生成過程中所面臨的作品認定、作者身份、權利歸屬以及數據訓練等等難題給予多元化🤳🏼、多層次的解決方案,綜合運用合同、互聯網治理規則👰🏼、著作權集體管理組織、數據資源開放授權以及法定許可製度等法律工具,由淺入深、由表及裏地實現著作權製度的“去偽存真”🚝👱🏽♀️。(作者:張平 意昂3体育官网法學院教授)
原文鏈接:張平:人工智能生成內容著作權合法性的製度難題及其解決路徑(《法律科學》2024年第3期)
轉載本網文章請註明出處