秘密研發,「威脅人類」,一個代號就引發全網恐慌?OpenAI的Q*到底是啥?

文章來源:GenAI新世界

作者:苗正

圖片來源:由無界 AI生成

讓我們先把OpenAI管理層內部的極地大亂鬥放在一邊,聊一聊這家公司最新的傳言——Q*。 OpenAI在11月22號的時候給員工發了一封內部信,承認了Q*,並將這個專案描述為“超越人類的自主系統”。 著實讓人感覺到有一絲絲可怕。

雖然OpenAI官方沒有放出任何有關Q*的消息,但是我們還是有能力淺淺瞭解。

首先第一步,我們要認識Q*的讀法,官方正式名稱叫做Q-Star,翻譯過來就是Q星。 對,你沒看錯,即便深度學習中,區塊之間是通過乘積來求解的,但是在Q*里,“*”並不是乘的意思,而是“星號”。 “**Q”這個字母在強化學習中表示一個動作的期望獎勵。 **

在人工智慧領域里,但凡跟大寫Q沾邊的,本質都是Q學習。 Q學習以現在的評判標準可以算是強化學習的一種,指的是在訓練的過程中,以記錄訓練歷史獎勵值的方式,告訴智慧體下一步怎麼樣選才能跟歷史最高獎勵值相同。 但請注意,歷史最大獎勵值並不代表模型的最大獎勵值,有可能是,也有很大可能不是,甚至還有可能八竿子打不著。 換句話說,Q學習和智慧體就像是一支球隊的分析師和教練之間的關係。 教練負責指導球隊,分析師則用來輔佐教練。

在強化學習的過程中,智慧體輸出的決策是要反饋到環境中才能得到獎勵值。 而Q學習因為只記錄獎勵值,因此它不需要對環境進行建模,相當於“結果好,一切就好”。

不過這樣看下來,好像Q學習還不如現在人工智慧,尤其是大模型常用的深度學習模型。 像現在這種動不動幾十億幾百億這麼多參數下,Q學習不僅對模型沒什麼説明,反倒還增加了複雜性,從而降低了魯棒性。

別急,**其實這是因為上述Q學習背後的思路本身只是一個誕生於1989年的基本概念。 **

DeepMind在2013年的時候曾經通過改進Q學習,推出過一個演算法叫做深度Q學習,其最鮮明的特點就是使用經歷重播,從過去多個結果中進行採樣,再使用Q學習,進而達到提高模型的穩定性,降低模型因為某一次結果導致訓練方向過於發散。

然而實話實說,這個概念一直沒有走紅也是有原因的,而從實際意義來看,深度Q學習此前在學界看來最大的作用就是開發出了DQN。

DQN是指深度Q網路,誕生於深度Q學習。 DQN的思路和Q學習是一模一樣的,但是在求得Q學習中最大獎勵值的過程,是用神經網路來實現的。 這一下子就fashion了起來。

DQN同一時間只會生成一個節點。 與此同時,DQN會生成一個優先順序佇列,然後再把剩下的節點和動作的元祖存到優先順序佇列里。 顯而易見,一個節點肯定不夠用,如果全程就一個節點那最後求解的答案一定錯得離譜。 當節點和動作元祖從佇列中移出來的時候,就會根據這個動作應用到已經生成的那個節點得出來的關聯性進而生成一個新節點,以此類推。

稍微懂點人工智慧發展史的人會覺得越看越眼熟,這不就是高配版弗洛德求邊長?

現代計算機中,處理器所使用的核心原理就是弗洛德演算法,通過與歷史最優值比對,求得兩點之間最短的路徑。 記憶體的作用就是將計算以優先順序的方式存儲,每當處理器完成一次計算后,記憶體再把下一條計算扔給處理器。

DQN本質沒什麼區別。

這基本就是Q的意思,那麼*又是指什麼呢?

**從諸多的業內人士分析來看,*很有可能指代的是A*演算法。 **

這是一種啟發式演算法。 先不著急講啟發式演演算法是什麼,我來講個笑話:

A問B說“快速求出1928749189571*1982379176的乘積”,B立馬就回答A說:“32”。 這個A聽了就很納悶,這麼大的兩個數相乘,不可能答案是兩位數。 B反問A:“你就說快不快?”。

看起來離譜,但啟發式演算法也是同理。

它的本質就是估算,在效率和正解之間只能選擇一個。 要不然就非常講究效率,可有時候會出錯;要不然就非常講究正確性,可耗時有時候會很長。 A*演算法則是先通過啟發式演算法估算一個大概其的值,當然這個值很有可能極其偏離正解。 估算完成後就會開始迴圈遍歷,如果怎麼都沒辦法求解那就重新估值,直到開始出現解。 如此反覆,最終得出最佳解。

雖然能得到最佳解,然而A*就是上文提到的第二種,答案對,耗時比較長。 放在實驗室環境還好,這種演算法要是放在個人設備上,有可能會導致記憶體溢出,產生系統問題,比如藍屏。

因此這樣的局限性使得過往A*演算法往往應用於一些不太複雜的模型,最典型的就是網路遊戲中角色尋路。 一些大型遊戲中,角色在尋路開始的那一剎那出現卡頓,就是因為A*演算法。

綜合來看,目前人工智慧圈的共識是,OpenAI內部信中提到的Q*演算法,大抵是Q學習和A兩者的取長補短,即節省算力、節省記憶體,並得到最佳解——因為它總不可能是又多花費算力,又浪費記憶體,最後還得不到最佳解吧!那不成累傻小子了嗎!

而且,就像OpenAI把基礎模型這件事最終做成了一樣,它同樣早已存在,甚至也一度被人們冷落,直到OpenAI用具體的創新的方法把它的潛力重新發掘出來。 今天人們自然有理由相信在Q和A這兩個早就存在的演算法思路里,OpenAI能故技重施再次創造奇跡——當然,對於這奇跡可能對人類帶來的危害也因為最近OpenAI的鬧劇而讓更多人憂心忡忡。

所以,回到這個演算法,Q*最有可能的樣子是,利用Q學習快速找到接近最優解的估值,再利用A*演算法在小範圍內求解,省去了大量沒有意義的計算過程,以此達到快速求得最佳解的效果。 但是OpenAI具體要怎麼做,還得等公開論文(如果能等到的話)。

**Q*的出現其實說明瞭一個問題,人工智慧頭部公司意識到當下人工智慧發展中求解的過程比求解更有意義。 **因為現在只追求答案的正確性不再能滿足人們對人工智慧的需求。 比如OpenCompass上,即便是平均分數差10分、20分,但是如果從理解的準確率上看,最好的模型和最差的模型也沒有很大的差距。

在人們的猜測和恐慌中,一個關於Q*的說法是,Q*可以解決非常高級的數學問題。 薩里以人為本人工智慧研究所所長安德魯·羅戈斯基表示“我們知道現有的人工智慧已被證明能夠進行本科水準的數學運算,但無法處理更高級的數學問題。 但是Q*極有可能用來解決高難度的數學問題。 “說不定等到Q*出來的那一天,還可以考考它哥德巴赫猜想。 而數學被認為是人類智慧的最大結晶之一,因此Q*只是一個代號就引發了全網的恐慌。

而且Q*背後還被與OpenAI的那個使命相聯繫——那就是對通用人工智慧(AGI),甚至是超級智慧的探索。 OpenAI 將 AGI 定義為在最具經濟價值的任務中超越人類的自主系統,Q*就是OpenAI邁向的AGI的一步。

**目前OpenAI對於Q*和內部信洩露事件沒有對外發表任何置評,**可我卻喜憂參半。 對Q*擁有強大能力表示開心,人工智慧領域發展將會更進一步。 同時也比較擔心Q*噱頭大於實際,最後真到發佈的那一天測試結果也就那麼回事,讓我被哐哐打臉。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)