把大模型裝進手機,總共分幾步?

原文來源:腦極體

圖片來源:由無界 AI生成

年初ChatGPT爆火的時候,我去上海參加華為春季新品發佈會,用一頁keynote提到了大模型技術與手機硬體的結合。 雖然只有短短的一兩分鐘,但我專門發了一條朋友圈,看好自然語言交互能力在手機上的應用。

當時我就有預感,大語言模型跟手機結合,應該會很快。

時間拉回到現在,蘋果、三星,以及「華米OV」國產手機廠商,都先後宣佈了落地大模型。 對手機來說,有沒有大模型,已經不是一道選擇題了,而是一道必答題。

提起這段故事,不是想說我們預判有多准,做科技觀察不是玄學算命,一切都是有規律可循的。 2023即將尾聲,但大模型手機的熱鬧方興未艾,是時候總結性地聊一聊,手機和大模型結合的深層邏輯,目前各家的差異化打法和挑戰是什麼,以及未來會如何發展。

2023,手機大模型的基建元年

首先有必要解釋一下,為什麼我們會預判,大模型與手機的結合,是一種必然?

了解手機市場近況的讀者應該知道,在輝煌了十餘年之後,移動智慧終端已經陷入了某種瓶頸,增長低迷、缺少亮點,廠商創新如同擠牙膏,開發者巧婦難為無米之炊,可施展的創意空間有限。 與此同時,一個用戶身邊至少環繞著三四個行動裝置,每天要為繁瑣交互,付出大量的隱形勞動,甚至有人不勝其煩,開始嘗試“數位戒斷”。

可以說,移動數位服務的供需雙方,都在期待一種新的變革技術,可以讓移動智慧終端生態化繁為簡、重塑體驗。 而在今天的技術世界中,大模型是最佳選項。

大語言模型的強大理解和生成能力,各種功能用同一個模型基座和自然語言交互來獲取,可以改變手機的多個基本能力,說是重新定義手機,也不為過。

讓大模型跑在手機上,成了手機廠商的必爭之地,開發者所需要的機會視窗,也是重新點燃用戶熱情的一種必然選項。

大家今年都聽說了「百模大戰」 但跟主要在雲端訓練、web 調用的通用大語言模型不同,高度整合化的手機,端側算力、OS 操作系統、應用併發、UI交互等一系列軟硬體,都有自身的特性,也給大模型落地帶來了不少限制。

結合華米OV等頭部廠商的行動方略來看,我們預判,2023將是手機大模型的基建元年。

大模型落地手機,基建工程剛剛開始,後面會有更多好戲可看。 具體來說,廠商必須搞定:

1.三座基建。

2.一個入口。

3.一群人。

我們就從這三個層面,來看看目前,各家的情況都怎麼樣?有哪些共同挑戰和差異化思路?

第一步:端側部署,三個基建

大語言模型的參數量動輒百億、千億,其訓練和推理過程,需要耗費大量計算資源,對於手機這樣的移動智慧終端來說,SoC晶元的算力是遠遠達不到數據中心萬卡集群的規模的,怎麼支撐大模型的端側運算呢?

就算勉強帶起來了,大模型佔據過多的手機工作記憶體,搶佔其他應用的資源,會不會出現卡頓或快速掉電?

本地計算不足,引入雲計算又會產生很多問題,比如大模型在雲上分析處理個人數據,會不會暴露我的隱私啊?

**要在端側部署,手機和大模型都要進行一番改造。 **

**首先,模型層。 **

**目前主要有兩條路線。 **

一是把大模型做小,也就是在端側引入輕量級大模型,通過量化、剪枝、蒸餾等壓縮技術,調整模型結構和參數大小,以適配端側晶元的記憶體和算力特點,沒網也能用,以榮耀、小米為代表。

榮耀Magic6搭載的,是自研的7B端側AI大模型(即70億參數規模),雷軍在2023年度演講宣佈“小米全面擁抱大模型”,主攻的是輕量化和本地部署,目前訓練出1.3B和6B參數規模的大模型。

二是把大模型做多,提供不同參數量級的大模型,來支撐不同場景、不同任務,雲端協同,以vivo、OPPO為代表。

11月vivo發佈的自研AI大模型矩陣,其中包括十億、百億、千億三個不同參數量級的5款大模型。 其中,10億量級模型是主要面向端側場景打造的專業文本大模型,70億模型是面向手機打造的端雲兩用模型,700億模型是面向雲端服務的主力模型。

同樣採用矩陣方式的,還有OPPO的安第斯大模型(AndesGPT),包括從10億至千億多種不同參數規模的模型。

我在VDC大會,實地體驗了基於藍心大模型的“vivo看見”,可以在完全沒有網络的情況下,為視障群體提供物品即時識別,辨認出植物、二維碼、公交卡等物體,回應很及時,手機的發熱和續航也在可接受範圍內,確實能解決視障群體出行在外時感知外界環境的實際需求。

這個功能讓我很受觸動,還特地發了條朋友圈分享。

不過,產品人員也直言,這種完全斷網、本地計算的大模型應用,對手機晶元的性能要求很高,目前只能在部分旗艦機型上落地。

**其次,晶元層。 **

大模型再小,也是“大”模型,一味壓縮可能會降低模型性能和輸出品質,導致識別精準度、生成內容下降。 所以,大模型落地,硬體的升級,尤其是手機移動晶元,是必不可少的先決條件。

根據目前得到的資訊,vivo和聯發科、高通等都有聯合研發合作,來加速優化手機端側的AI推理性能,小米也透露,再跟晶元公司(高通和聯發科)共同推動端側大模型的落地。 此外,今年麒麟晶元回歸,與華為鴻蒙操作系統、盤古大模型可以實現深度的協同優化。

必須承認,大模型應用才剛剛開始,與移動晶元的協同調校也才邁出了第一步,未來手機要承載視頻、圖像類AIGC任務,絕大多數用戶應該是都不願意上傳到雲端的,所以本地AI計算硬體的優化調校,接下來會是手機廠商的競爭力之一。

**然後,系統層。 **

最終,高效可用的大模型應用,一定是端雲協同的,來兼顧體驗與隱私。 這就帶來了一些問題,比如數據和業務上雲,如何保障使用者的隱私和數據安全?基於大模型的AI應用,是否會影響手機性能、續航等使用感?要解決這個問題,必須從底層操作系統上下功夫。

其中,華為旗艦手機通過HarmonyOS 4系統接入盤古大模型,鴻蒙系統作為底層原始程式碼全部自己寫出來的OS,加上微內核架構,將核心的操作系統服務和安全服務分離,以及安全晶元和隔離技術,從軟硬體全方位的安全保障機制。

此外,OPPO的ColorOS,小米澎湃OS,vivo藍心大模型與其手機系統OriginOS 4,也都成為自研大模型的落地土壤。

而大模型能否與操作系統深度融合,以及操作系統自身的流暢、安全、智慧,決定了大模型後續表現的關鍵。

據vivo的一位工作人員分享,除了基座模型本身的性能品質之外,大量的工程化細節也是必不可少的。 要讓操作系統快速執行使用者的指令,不僅需要大模型對輸入的語音/文本,通過思維鏈進行目標拆解,而且需要大模型深入理解手機技能,對幾百個技能進行智慧編排,自動選擇和調用相應的API,這樣才能自動執行複雜任務,把複雜留給自己,把簡單交給使用者。

不難看出,底層模型、晶元、操作系統,是大模型端側部署,必不可少的三座基礎設施。 同時也應該看到,下一階段的手機市場,是高技術、高難度、高投入、高風險的,需要扎紮實實的“硬功夫”,競爭將變得嚴酷,玩家也會變得更少。

第二步:觸達使用者,一個入口

大模型火了一整年,大廠、媒體和創業者心心念念的超越ChatGPT、對標GPT4,到了普通讀者那裡,似乎還是不明就里:大模型究竟怎麼改變我的生活呢?

那麼,把智慧手機變成「阿拉丁神燈」怎麼樣?

看過童話故事的讀者知道,燈中乾坤大,藏著無數資源和寶藏,但不需要阿拉丁費心琢磨,他只需要說出願望,都有“燈神”為他將一切事務安排妥當。 大模型的理解、創造能力,賦能給手機語音助手,就將它們變成了一個個“燈神”。

接入大模型能力的語音助手,是手機廠商觸達使用者的直接路徑。

目前來看,大模型到手機,就幹三件事:一是利用大語言模型的自然對話能力,改變終端交互體驗;二是利用大模型的理解能力,提供個性化的服務,熟悉使用者的日常偏好、習慣,更懂使用者;三是借助大模型的創造能力,進行摘要提取、文案生成、圖像製作,提高生產力…

而上述能力,基本都是通過語音助手來一步直達的。

比如華為的智慧助手小藝,接入盤古大模型的底層能力,在智慧交互、高效生產力提升和個人化服務三個方向上獲得增強。

vivo藍心大模型與手機系統OriginOS 4結合,打造了首款全域智慧輔助“藍心小V”,可以通過自然交流,幫使用者完成很多複雜任務,化繁為簡。

基於OPPO安第斯大模型的新小布助手,以及升級了小米AI大模型的小愛同學,也都上線了測試版、體驗版。

萬物智聯時代,智慧終端用戶會面臨設備大爆炸、資訊大爆炸、服務大爆炸,如果一切都需要使用者自己進行查找,猶如大海撈針,這對每一個人的耐心、時間、數字資訊素養等,都提出了很高的要求。 而大模型與智慧助手的融合,就是解藥。

智慧助手可以調度手機、耳機、汽車、平板、智慧屏、電腦PC、智慧家居等物聯網設備,是使用者和AIoT之間的最短路徑。

而依靠大模型的加持,智慧助手的分析理解能力、知識水平、記憶水準、生成能力,都大大得到了提升,讓手機廠商說了多年的“千人千機”真的可實現、可感知。

但很長一段時間以來,用戶並沒有覺得智慧助手是不可或缺的,有的人還會覺得跟智慧助手對話很尷尬、人工智障等,甚至覺得有點雞肋。

毫不誇張地說,大模型好不好用,普通使用者不一定關心,但智慧助手好不好用,一句對話就能試出差距,將是接下來手機廠商的競爭焦點。

總結一下,僅有大模型還不夠,智慧助手才是觸達使用者的最短路徑,也是手機廠商的必爭之地。

第三步:應用繁榮,一群開發者

在手機和用戶已經具備了接入大模型的前提條件之後,下一步就是如何讓開發者真正走入大模型的世界。

今天,在華為、vivo、OPPO等廠商的發佈會上,我看到的基於大模型的AI應用已經不少,但都偏向於示範,比如自然語言的智慧搜索、一句話生成圖像、AI作曲等。 這些功能對於大眾用戶來說,還是太過於基礎了。

就拿火爆的AIGC應用來說,生成最美證件照、為寵物作畫、製作漫畫頭像、寫一段小紅薯分享文案、賽博菩薩、拍圖做數學題、生成智慧手錶壁紙… 都是需求極為細分的。 手機廠商不能,也不應該,將這些AI應用都全部自己幹了,這就必須引入千千萬萬開發者,去發揮創意,去基於大模型做無數小而美的AI應用。

但是,從開發端到市場端,大模型AI應用的路看似很有誘惑力,但對於開發者來說,還是面臨著技術、學習成本、市場壓力等各種顧慮,需要廠商強有力的技術體系、工具平臺、賦能方案以及商業勢能的加持。

目前,我們能看到幾種生態策略:

**鴻蒙的技術之路。 **為全場景智慧的市場空間,以及鴻蒙分散式系統的產業容納能力,對開發者的吸引力還是很大的。 華為已經準備開啟全新的HarmonyOS NEXT,全面啟動鴻蒙原生應用。

**vivo的開源之路。 **Vivo走上了一條開源共建之路,70億藍心大模型成為業界首個中文開源大模型,開源的好處是可以吸引群體智慧,更適合在技術探索期,進行廣泛、不設邊界的探索,從而催生出更多更新更好的創意應用。 vivo也發佈了對應的微調框架以及大模型開發套件BlueKit,為開發者提供全方位的支援。

**OPPO的夥伴之路。 **此前OPPO公佈了2023 OPPO開發者大會的內容前瞻,其中潘塔納爾系統能力向開發者全面開放,支援一次開發、多形態多模態多入口的快速適配,並提供相應的工具資源,幫助開發者快速接入泛在服務,吸引更多合作夥伴來提供多元化的智慧服務。

可以肯定,接下來大模型越來越多、手機基礎軟硬體逐步成熟、平臺能力工具介面更加完善,基於大模型的移動AI應用會變得越來越普及,這時候各家應用生態能拉開差距的,就只有開發者的數量和品質——開發者能釋放出多少精彩的想像力,手機的使用價值就有多大。

開發者生態,是移動互聯時代的護城河,這一定律在AI大模型時代也同樣適用。

對於手機廠商來說,幸運的是,大模型手機才剛剛開始,應用開發者不希望錯過機遇視窗,還有時間積攢籌碼。

總結一下,2023是大模型手機的修鍊之年,三座基建、一個入口、一群人,都逐漸彙聚在端側,變化或許在瞬息之間。

當大模型的殺手級應用步入手機,讓用戶發出“哇”的尖叫。 這個大模型手機的“aha時刻”,說明移動互聯網的下一個春天,真的來臨了。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
  • 熱門 Gate Fun查看更多
  • 市值:$3638.78持有人數:2
    0.25%
  • 市值:$3575.86持有人數:1
    0.00%
  • 市值:$3579.31持有人數:1
    0.00%
  • 市值:$3607.43持有人數:3
    0.14%
  • 市值:$3548.27持有人數:1
    0.00%
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)