“飆升”的ChatGPT急需“合規刹車”

律动

2023-12-01 11:07:13

核心提示：

ChatGPT和其他基於自然語言處理技術的聊天AI有三個主要的法律合規問題，需要在短期內緊急解決：

首先，當涉及到聊天AI提供的答案的智慧財產權時，主要的合規問題是聊天AI產生的答案是否產生相應的智慧財產權，是否需要知識產權授權。

其次，在海量自然語言處理文本（俗稱語料庫）上進行數據挖掘和聊天AI訓練的過程是否需要獲得相應的智慧財產權？

第三，ChatGPT和其他聊天AI回答的機制之一是通過對大量現有的自然語言文本進行數學統計計數，獲得基於統計的語言模型，這導致聊天AI很可能“胡說八道”，進而導致虛假信息傳播的法律風險。

總體來看，目前我國人工智慧立法仍處於前期研究階段，目前尚無正式的立法計劃或相關徵求意見稿，相關部門對人工智慧領域的監管尤為謹慎。

1. ChatGPT不是“跨時代的人工智慧技術”

ChatGPT本質上是自然語言處理技術發展的產物，本質上仍然只是一個語言模型。

2023年初，全球科技巨頭微軟的巨額投入，讓ChatGPT成為科技領域的“頂流”，成功出圈。隨著ChatGPT概念在資本市場的急劇崛起，國內很多科技公司也開始佈局這一領域，而資本市場對ChatGPT概念的熱情高漲，作為法律工作者，我們不禁要評估ChatGPT本身可能帶來哪些法律安全風險，其法律合規路徑又是什麼？

在討論ChatGPT的法律風險和合規路徑之前，我們應該首先檢查ChatGPT的技術原理 - ChatGPT是否像新聞所暗示的那樣給提問者任何他們想要的問題？

在 Sister Sa 團隊看來，ChatGPT 似乎遠沒有一些新聞宣傳的那麼“神”——一句話，它只是 Transformer 和 GPT 等自然語言處理技術的整合，本質上依然是基於神經網路的語言模型，而不是“跨時代的 AI 進步”。

如前所述，ChatGPT是自然語言處理技術發展的產物，就技術的發展歷史而言，它大致經歷了三個階段：基於語法的語言模型、基於統計的語言模型和基於神經網路的語言模型作為基於統計的語言模型（基於神經網路的語言模型的前身）的工作原理，必須首先闡明該原則以及該原則可能產生的法律風險。

在基於統計的語言模型階段，AI工程師通過計算大量的自然語言文本來確定單詞之間連續連接的概率，當人們提出問題時，AI開始分析在構成問題的組成詞的語言環境中，哪些單詞極有可能，然後將這些高概率單詞拼接在一起，返回基於統計的答案。可以說，這一原理自自然語言處理技術出現以來就貫穿了其發展，甚至從某種意義上說，隨後出現的基於神經網路的語言模型也是對基於統計的語言模型的修改。

舉一個通俗易懂的例子，Sa姐的團隊在ChatGPT聊天框中輸入了“大連有哪些旅遊景點？”的問題，如下圖所示：

第一步，AI會分析問題中的基本語素，“大連，哪個，旅遊，風景名勝”，然後找到現有語料庫中這些語素所在的自然語言文本集，找到該集合中出現概率最高的搭配，然後將這些搭配組合起來，形成最終答案。例如，AI會發現語料庫中有“中山公園”一詞，出現“大連、旅遊、度假”三個字的概率很高，所以會回到“中山公園”，而“公園”這個詞與園林、湖泊、噴泉、雕像等詞搭配的概率最高，所以會進一步返回“這是一個擁有美麗花園、湖泊、噴泉和雕像的歷史公園。」

也就是說，整個過程是基於AI背後已經存在的自然語言文本資訊（語料庫）的概率統計，所以返回的答案也是“統計結果”，這導致了ChatGPT在很多問題上的“嚴肅廢話”。作為「大連有哪些旅遊景點」問題的回答，大連雖然有中山公園，但中山公園內沒有湖泊、噴泉和雕像。大連歷史上確實有“史達林廣場”，但史達林廣場從來不是一個商業廣場，也沒有任何購物中心、餐館或娛樂場所。顯然，ChatGPT返回的資訊是錯誤的。

其次，ChatGPT 是目前最適合作為語言模型的應用場景

雖然我們在上一部分直截了當地解釋了基於統計的語言模型的缺點，但ChatGPT已經是一個基於神經網路的語言模型，大大提升了基於統計的語言模型，其技術基礎Transformer和GPT是最新一代的語言模型該模型組合在一起，以非常深入的方式對自然語言進行建模，返回的句子有時是“廢話”，但乍一看仍然像是“人類反應”，因此該技術在需要大規模人機交互的場景中具有廣泛的應用場景。

目前，有三種這樣的情況：

首先，搜尋引擎;

二是銀行、律師事務所、各類中介機構、商場、醫院、政務服務平臺的人機交互機制，如上述場所的客戶投訴系統、引導導航、政務諮詢系統等;

第三，智慧汽車與智慧家居（如智慧音箱、智慧燈）的交互機制。

結合ChatGPT等AI聊天技術的搜尋引擎可能會呈現傳統的基於搜尋引擎的方法+基於神經網路的語言模型。目前，谷歌、百度等傳統搜索巨頭在基於神經網路的語言模型技術方面有著深厚的積累，比如谷歌就有Sparrow和Lamda，可以媲美ChatGPT。

ChatGPT等AI聊天技術在客戶投訴系統、醫院和商場的引導導航、政府機構政務諮詢系統中的應用，將大大降低相關單位的人力資源成本，節省溝通時間，但問題是，基於統計的答案可能會產生完全錯誤的內容回應，由此帶來的風險控制風險可能需要進一步評估。

與上述兩種應用場景相比，ChatGPT應用成為上述設備在智慧汽車和智慧家居領域的人機交互機制的法律風險要小得多，因為該領域的應用環境相對私密，AI反饋的錯誤內容不會造成較大的法律風險，同時，此類場景對內容準確性的要求不高，商業模式也比較成熟。

III. ChatGPT法律風險與合規路徑的初步研究

一、我國人工智慧整體監管格局

與許多新興技術一樣，以ChatGPT為代表的自然語言處理技術面臨著“科林裡奇困境” 這種困境包括資訊困境，即一項新興技術的社會後果在技術早期無法預測，所謂控制困境，即當發現一項新興技術的不良社會後果時，該技術往往成為整個社會經濟結構的一部分，以至於不利的社會後果無法得到有效控制。

在人工智慧領域，尤其是自然語言處理技術處於快速發展階段的當下，該技術很可能陷入所謂的“科林裡奇困境”，相應的法律法規似乎並沒有“跟上步伐”。目前，我國還沒有關於人工智慧產業的國家立法，但在地方層面已經有了相關的立法嘗試。去年9月，深圳公佈了《深圳經濟特區人工智慧產業促進條例》，這是針對國家非人工智慧產業的專項立法，隨後上海也通過了《關於促進上海人工智慧產業發展的規定》。

在人工智慧倫理監管方面，全國新一代人工智慧治理專業委員會也於2021年發佈了《新一代人工智慧倫理規範》，提出將倫理融入人工智慧研發應用的全生命週期。

二、ChatGPT帶來的虛假資訊的法律風險

將焦點從宏觀轉向微觀，除了人工智慧行業的整體監管格局和人工智慧的倫理監管外，ChatGPT等人工智慧聊天基礎中存在的實際合規問題也需要緊急關注。

如本文第 2 部分所述，ChatGPT 的工作機制使其回復可能完全是“嚴肅的廢話”，這是極具誤導性的。當然，對「大連有哪些旅遊景點」等問題的虛假回答可能不會產生嚴重後果，但如果將ChatGPT應用於搜尋引擎、客戶投訴系統等領域，其回復的虛假資訊可能會帶來極其嚴重的法律風險。

事實上，這樣的法律風險早已浮出水面，2022 年 11 月幾乎與 ChatGPT 同時上線的元服務科研領域的語言模型 Galactica，僅經過 3 天的測試就因為真假答案的混雜問題而下線。在技術原理無法在短時間內突破的前提下，如果將ChatGPT和類似語言模型應用於搜尋引擎、客戶投訴系統等領域，就必須進行改造以實現合規。當檢測到使用者可能會提出專業問題時，應指示使用者諮詢適當的專業人員，而不是從AI那裡尋找答案，並且應顯著提醒使用者聊天AI返回的問題的真實性可能需要進一步驗證，以盡量減少相應的合規風險。

三、ChatGPT帶來的智慧財產權合規問題

當焦點從宏觀轉向微觀時，除了AI回復信息的真實性外，聊天AI的知識產權問題，尤其是像ChatGPT這樣的大語言模型，也應該引起合規官的關注。

第一個合規問題是「文本數據挖掘」是否需要相應的知識產權許可。如上所述，ChatGPT依賴於大量的自然語言文本（或語音資料庫），ChatGPT需要挖掘和訓練語料庫中的數據，而ChatGPT需要將語料庫中的內容複製到自己的資料庫中，相應的行為在自然語言處理領域通常被稱為“文本數據挖掘”。在相應的文本數據可能構成作品的前提下，文本數據挖掘是否侵犯了複製權仍存在爭議。

在比較法領域，日本和歐盟都在其版權立法中擴大了合理使用的範圍，增加了人工智慧中的“文本數據挖掘”作為合理使用的新案例。雖然在2020年中國著作權法修訂過程中，有學者主張將我國的合理使用制度從“封閉”改為“開放”，但這一主張最終並未被採納，目前我國著作權法仍保持合理使用制度的封閉條款，只有著作權法第24條規定的十三種情形才能認定為合理使用，換句話說，目前我國著作權法並未將人工智慧中的“文本數據挖掘”納入其中納入合理應用範圍，文本數據挖掘在我國仍需相應的知識產權授權。

至於AI生成的作品是否具有原創性的問題，颯姐團隊認為，判斷標準不應該與現有的判斷標準不同，換句話說，一個回應是AI完成的還是人類完成的，應該根據現有的原創性標準來判斷。顯然，根據包括中國在內的大多數國家的智慧財產權法，作品的作者只能是自然人，人工智慧不能成為作品的作者。

最後，如果ChatGPT在回復中拼接了第三方作品，其智慧財產權應該如何處理？ Sa姐的團隊認為，如果ChatGPT的回復拼接了語料庫中受版權保護的作品（儘管根據ChatGPT的工作原理，這種情況不太可能發生），那麼根據中國現行的著作權法，除非構成合理使用，否則必須未經版權擁有者授權進行複製。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

律动

熱門話題查看更多
#2025Gate年度帳單
5.28萬熱度
#加密市場小幅回暖
9702 熱度
#現貨黃金再創新高
6827 熱度
#日本央行明年或兩次加息
2600 熱度
#2026行情预测
2467 熱度

熱門 Gate Fun查看更多

1
BEATBEAT
市值:$3575.86持有人數:1
0.00%
2
BTC&ETHBitCoin and Ethereum
市值:$3579.31持有人數:1
0.00%
3
DOPEDopamine Drip
市值:$3602.49持有人數:2
0.04%
4
GYEGate Year End
市值:$3621.77持有人數:2
0.04%
5
芝麻人生芝麻人生
市值:$3555.17持有人數:1
0.00%