GPT 成熟之路官方筆記 | OpenAI 開發者日

巴比特_

2023-11-26 05:57:21

文章來源：量子位

圖片來源：由無界 AI 生成

ChatGPT產品打造的細節，現在OpenAI自己交了個底。

並且這波乾貨分享真是資訊量滿滿，包括但不限於：

ChatGPT背後的產品和研發團隊如何協作
大模型應用如何從原型走向成熟
OpenAI如何優化大模型性能
…

以上資訊，依然來自今年的新晉“科技春晚”——OpenAI開發者日。

除了奧特曼驚豔全球的開幕演講，當天還有更多分組討論，視頻也陸續被官方上傳到了油管。

而這也算得上是OpenAI驚天抓馬之前，其團隊“內幕”的一次展示。

值得借鑒學習之處，我們已經整理好筆記，一起來看~

產品與研究團隊合作「前所未有」

把時間拉回到2022年10月，OpenAI的研究團隊和產品團隊開始圍繞一個idea進行討論：為他們的基礎大模型，製作一個對話介面。

彼時還處在ChatGPT的早期階段，但研究團隊和產品團隊的緊密協作已然開始，它們之間相互的影響程度更是獨樹一幟。

或許這種團隊合作模式，可以成為其他公司參考借鑒的樣本。

用OpenAI模型行為產品負責人Joanne Jang的話說：

在OpenAI，研究團隊和產品團隊之間的相互影響，在業內已經達到了前所未有的程度。

ChatGPT本身，就是最明顯的例子。

OpenAI Post-Training團隊負責人Barret Zoph和Joanne共同分享了兩支團隊在ChatGPT開發和完善過程中的一些協作細節。

Barret團隊的主要職責，是在模型能力被加入到ChatGPT和API之前，對其進行調整。具體來說，ChatGPT後期增加的聯網、分析檔等功能，都是由Post-Training團隊負責的。

Barret重點提到的是，正是產品團隊的種種設計，讓研究團隊能夠及時get到什麼樣的模型回應，對於現實世界中的使用者和開發人員是真正有用的。

比如ChatGPT的點讚點踩按鈕，就給研究本身帶來了很多價值：

我們可以根據這樣的反饋調整正在做的事情，瞭解哪些工作做得好，哪些做得不好，這樣一來，我們就能讓模型響應越來越適合使用者。
在研究中，我們通常用離線評估指標和基準去衡量模型的進展，但有時候這並非人們真正使用模型的方式。產品團隊的説明，使得我們能夠確保自己正走在構建通用、強大系統的方向上。

而站在產品團隊的角度，Joanne同樣認為，OpenAI產品經理扮演的角色有獨特之處：

首先，在OpenAI做產品的目標不是收入、參與度、增長等傳統產品指標，而是打造造福全人類的通用人工智慧。

其次，OpenAI的產品經理往往是從技術而非用戶問題的角度出發，去設計產品功能的。

最後，OpenAI研究團隊和產品團隊相互影響的程度非常之高，在業內可以說達到了前所未有的程度。

還是以ChatGPT誕生的過程為例。從GPT-3，到InstructGPT，再到ChatGPT，研究團隊發現，直接在多輪對話上訓練模型，能讓教導模型新的行為這件事變得更加有效。

而具體教導（設計）模型行為的工作，就是靠產品團隊來參與完成的：比如說，當使用者告訴ChatGPT“你現在是一隻貓”，ChatGPT應該表現出怎樣的默認行為？

產品團隊對此進行了大量的實驗，以找出適合大多數用戶的預設模式。

（p.s. 不過Joanne也提到，對於使用者而言，最好的模型是個人化的模型，這也是他們對未來大模型發展方向的預判之一。）

非線性策略優化大模型性能

講完協同“內幕”，再來看技術細節。

在開發者日上，OpenAI的技術人員分享了GPT-4中使用的大模型優化技術。

劃重點就是，採用非線性策略，具體包括兩個維度和四個象限。

OpenAI提出了一個多層次的非線性優化框架，涉及到了提示工程、搜索增強生成（RAG）和微調這三種技術。

傳統的模型優化方式往往以線性方式運用這三項技術，在OpenAI看來這種模式無法解決“真正需要解決的問題”。

OpenAI認為，大模型表現優化分為兩個維度，一個是其本身的表現，一個是上下文。

根據這兩個維度需求程度的不同，就形成了四個象限。

具體來說，這兩個優化方向的起點都是提示工程，但接下來要用RAG還是微調（或兩者兼用）則需要根據實際情況來選擇。

通過詳細比較這三項技術各自的優勢，OpenAI的兩名技術人員分別做了具體解釋。

首先是提示工程，它被看作大模型優化的起始點，通過設計提示詞來增強模型性能，可以測試和快速反覆運算。

具體的策略包括，將提示詞設計得更清晰、將複雜任務拆解，以及提供範例文本或調用外部工具等。

但對於讓模型學習新資訊，或者複刻一種複雜的方法（如學習新的程式設計語言），則超出了提示工程的能力範疇。

此外，任務的細化也會帶來token的增加，所以提示工程對於減少token消耗來說也是不利的。

RAG和微調解決的問題則存在一些相似之處，二者的主要區別在於，RAG更適用於讓模型從給定資訊中獲取答案（短期記憶），而微調的重點是模型的長期記憶。

RAG的核心優勢是利用知識庫為模型提供上下文資訊，從而減少模型幻覺。

但是這種知識資訊通常局限於十分具體的領域，但對於寬泛的領域（如“法律”“醫學”等）作用並不明顯。

同時，提供大量上下文資訊會帶來比提示工程更多的token消耗，對節約token同樣不利。

此外，過度應用RAG也有可能帶來反效果，比如有使用者要求GPT隻利用文檔中的資訊，然後發現模型出現了“幻覺”。

但事後分析發現，這並非是模型的幻覺現象，而是使用者提供的資訊本身就存在錯誤。

而微調則是通過在小數據集上訓練模型，來提高性能和效率，或者修改輸出結構。

相比RAG，微調更側重於強調模型已有的知識，並提供複雜的任務指導，對於學習新知識或反覆運算到新用例則不是好的選擇。

總結下來就是，基於這些策略的特點和使用領域，根據實際需求有的放矢地選擇優化策略。

這也是OpenAI調教GPT-4的法寶，具體到應用層面，OpenAI也為一眾創業者獻上了一份大禮。

為創業者送上「大禮包」

OpenAI工程負責人和Applied團隊成員分享了如何將基於OpenAI模型搭建的應用從原型走向完整產品。

如果你也有興趣基於OpenAI的API搞一些應用創新，以下是官方分享的一些工程實踐經驗：

第一，打造以人為本的用戶體驗，即減少模型不確定性，增強模型的安全性和可控性。

第二，提供一致性體驗。比如利用知識庫等工具來減少模型的不一致性。工程師們提到，OpenAI通過控制seed來控制結果的可重現性，並且提供了當前系統的“指紋”來代表整個系統的狀態。

第三，重視性能評估。並且OpenAI發現，用大模型來代替人工進行性能評估效果顯著。

第四，管理延遲和成本。主要策略有兩種：首先是加入語義緩存，來減少真實API的訪問;其次是使用更便宜的模型，比如不直接使用GPT-4，而是用GPT-4的輸出來微調GPT-3.5 Turbo。

而具體到產品更新，新版API也值得關注，OpenAI的廣告詞是可以“在開發的應用中直接構建世界級的助手”。

新版API支援調用代碼解釋器和外部知識，OpenAI的API工程主管Michelle進行了現場演示。

此外，在函數（第三方API）調用方面也進行了改進，新增了JSON輸出模式，並允許同時調用多個函數。

還有一件事

順便提一嘴，開發者大會的開幕式上，OpenAI現場給每個人發放了500美元的賬戶餘額，讓線下觀眾紛紛投來羡慕的目光。

不過實際上他們只賺了50，因為還要花450美元買門票。

按照最新的定價，50美元可以通過API處理500萬輸入token或166.6萬輸出token。

那麼，今日份的乾貨筆記就分享到這裡了，想瞭解更多詳細內容，可以到官方重播中一睹為快。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

熱門話題查看更多
#2025Gate年度帳單
2.65萬熱度
#成長值抽獎贏金條和精美週邊
3.07萬熱度
#ETH走勢分析
15.1萬熱度
#美聯儲降息預測
8.1萬熱度
#曬出我的Alpha積分
6.77萬熱度

熱門 Gate Fun查看更多

1
100000BtcBd
市值:$3537.93持有人數:1
0.00%
2
WTHwealth9231
市值:$3583.27持有人數:2
0.04%
3
大门大门交易所
市值:$3614.75持有人數:2
0.30%
4
MP信托Международный Трастовый Фонд
市值:$3604.42持有人數:4
0.17%
5
MCMargin Call
市值:$3555.17持有人數:1
0.00%