**外部からの質問に対して、11月15日、Zero One EverythingはLunch Financeの取材に対し、モデルのトレーニングの過程でGPT/LLaMAの基本アーキテクチャが使用されたことを認めたが、「Zero One Thingsの観察と分析に関しては、大規模モデルコミュニティは現在、技術アーキテクチャの面で一般化の段階的な収束に近い段階にあり、基本的に国際的な主流の大規模モデルはTransformerのアーキテクチャに基づいている…中国でリリースされたオープンソースモデルの大部分は、徐々に業界標準になっているGPTも使用しています。 LLaMAアーキテクチャ。 "
モデルのトレーニングプロセスを料理に例えると、「アーキテクチャは、原材料と調理のおおよそのステップを決定するだけです… 優れたモデルをトレーニングするには、より優れた「原材料」(データ)と、各ステップの詳細(トレーニング方法と特定のパラメータ)の制御も必要です。 Zero One Thingはさらに説明しました。
Jia Yangqing氏がこのニュースを報じる前に、Zero One ThingsがLLaMAアーキテクチャを模倣しているという非難がオープンソースコミュニティで発酵し始めていた。 **
Googleのグローバルバイスプレジデント兼大中華圏のプレジデントを務め、マイクロソフトのグローバルバイスプレジデント在任中にMicrosoft Research Asiaを設立したKai-Fu Lee氏は、2009年にSinovation Venturesを設立し、プロのスターマネージャーからVC投資家への転換を完了しました。
Kai-Fu Leeは大型モデルにつまずいた
出典:Lunch Finance
著者: Zhao Jinjie
一般的な大規模モデルベースの開発を決意しているKai-Fu Lee氏は、シェルMetaオープンソースの大規模モデルLLaMAに関する疑問に陥っています。
Jia Yangqing氏は、この新モデルを開発した特定の企業の名前を挙げていないが、すべての兆候は、Kai-Fu Lee氏の「0」と「1」を指し示している。 11月6日、Zero Oneはオープンソースモデルの「Yi」シリーズ「Yi-34B」と「Yi-6B」をリリースした。
モデルのトレーニングプロセスを料理に例えると、「アーキテクチャは、原材料と調理のおおよそのステップを決定するだけです… 優れたモデルをトレーニングするには、より優れた「原材料」(データ)と、各ステップの詳細(トレーニング方法と特定のパラメータ)の制御も必要です。 Zero One Thingはさらに説明しました。
Jia Yangqing氏がこのニュースを報じる前に、Zero One ThingsがLLaMAアーキテクチャを模倣しているという非難がオープンソースコミュニティで発酵し始めていた。 **
9日前、convaiのシニアAIアプリケーションエキスパートであるEric Hartford氏は、Huggingfaceに「Yi-34Bモデルは基本的にLLaMAのアーキテクチャを採用しているが、2つのテンソルの名前を変更している。 "
Lunch Financeが本日受け取った最新の回答で、Zero One Everythingは次のように述べています:「実験後にLLaMAの推論コードの一部の名前を変更したという過失については、当初の出発点はモデルを完全にテストすることであり、ソースを意図的に隠すことではありませんでした。 現在、モデルとコードを再提出し、さまざまなオープンソースプラットフォームでLLaMAプロトコルのコピーを補完している最中であり、各オープンソースコミュニティのバージョン更新をできるだけ早く完了することを約束します。 "
李凱福は、今日の午後、Momentsでこの件について個人的に回答しました。
大規模モデルも開発した国内起業家のLi Zhen氏は、Boxlunch Financeに対し、大規模モデルがケーシング動作を持つかどうかの定義は、具体的な実装の詳細と基盤となる技術に依存すると語った。 **"ゼロワンシングの大規模モデルがMeta LLaMAと同じモデルアーキテクチャ、トレーニング方法、データセットを使用している場合、多少シェル化されている可能性があります。 ただし、別の技術を使用したり、さらに改善が加えられている場合は、単にケーシングとは言えません。 "
01000000の声明によると、トレーニング方法の調整、データマッチング、データエンジニアリング、詳細なパラメータ、ベビーシッターなどにエネルギーのほとんどを投資しました。
**モデル アーキテクチャが類似している場合でも、最終的なトレーニング済み大規模モデルのパフォーマンスは、異なるデータ ソースとデータ トレーニング方法のサポートによって変化します。 **「大規模モデル以前のAIは、モデル中心のシングルタスクシステムが主流で、データは基本的に変わりませんでした。 大規模モデルの時代では、アルゴリズムは基本的に一定であり、データは常に増加しています。 業界の専門家である劉飛氏の見解では、アルゴリズムや計算能力と比較して、データは国内の大規模モデルがOpenAIに追いつくのを妨げる大きなギャップである可能性があり、「悪魔はこれらのデータトレーニングの詳細に隠されています」。 "
特に、パラメータの数の大きさと最終モデルによって提示される効果の間で、この2つは「入力と出力に比例せず、非線形である」ことに言及する価値があります。 人工知能の専門家であるDing Lei氏は、「データは定性的なものにすぎず、データをクリーンアップするチームの能力をテストすることがより重要です。そうでなければ、データの増加に伴い、データの干渉も大きくなります」と述べています。 "
**これはまた、新しい大規模モデルチームが、より少ないパラメータ数でパフォーマンスの点で、より多くのパラメータを持つモデルを凌駕する可能性を理論的に提供します。 **
11月6日にYi-34Bの事前学習済みモデルがリリースされた後、Kai-Fu Lee氏は、より小さなモデルサイズの評価でLLaMA2-70BやFalcon-180Bなどの大規模なオープンソースモデルを凌駕し、「世界最強のオープンソースモデル」と表現しました。
しかし、国内の大型モデルが次々とテストリストのトップに立つ中、業界最強と認められるGPT-4を次々と凌駕し、これらの大型モデルが強さで高得点を獲得したのか、それともリストを磨く手段で高得点を獲得したのか、再び外部から論争を巻き起こしています。 **
有名な大規模モデルテストセットC-は、公式Webサイトの上部にあり、評価は決して包括的ではなく、ランキングリストは不健全な方法でハッキングされる可能性があると述べており、強力なモデル(GPT-4など)の予測結果を抽出する、手動注釈を見つけてから蒸留する、インターネットで元の質問を見つけてトレーニングセットに微調整モデルを追加するなど、リストを磨くいくつかの一般的な方法を提供します。 **
**劉飛氏の見解では、国内の大型モデルの最高級テストリストが繰り返される主な客観的理由は、これまでのところ、真に認識された客観的な評価基準と方法がないためです。 **前世代のAIの「シングルタスクモデル」は、データセットがゴールドスタンダードとして認識されていましたが、大規模モデルが出現した時代には、「マルチタスクでオープンエンドな大規模モデルの新しい特性により、事前に定義することが困難になり、データ品質のテストが煩雑で包括的になりにくい」とされています。 劉飛は言った。
しかし、国内の大規模モデルの多くがLLaMAアーキテクチャから借用して学習したとしても、国内企業にとってかけがえのない価値を持つことに変わりはありません。
Li Zhen氏は、外部企業が大規模なモデルプラットフォームにアクセスする場合、モデルのパフォーマンスと効果を考慮することに加えて、モデルのオープン性とカスタマイズ性も考慮すべき重要な要素であると述べました。
**国内企業はMeta LLaMAモデルに直接アクセスできますが、Meta LLaMAは国際的な大規模モデルプラットフォームであるため、より多くの国際的な規制や制限に準拠する必要があります。 **また、センシティブな領域やデータが関わる場合は、特定の認可やライセンスも必要であり、海外のオープンソース技術がいつでも停止したり、高額な料金に切り替えたり、リージョンでのアクセスが制限されたりするリスクも排除できません。 したがって、Li Zhen氏の見解では、国内企業にとっては、Meta LLaMAへのアクセスを危険にさらすよりも、国内の大規模モデルに直接電話をかける方が経済的で費用対効果の高い選択です。
今年3月、Kai-Fu Leeは、自らチームを率いてAI2.0企業を設立し、一般的な大型モデルを開発することを正式に発表しました。 3ヶ月の準備期間を経て、7月に正式に「ゼロワンエブリシング」と名付けられ、数十人の大規模なモデル研究開発チームを立ち上げました。 **チームが結成されてから4か月後、ゼロワンエブリシングは11月に大型モデル製品の「Yi」シリーズを発売し、Yi-34Bの助けを借りて多くの大規模モデルテストセットを支配しました。 **
投資コミュニティからの報告によると、010000はアリババクラウドが主導する新しい資金調達ラウンドを完了し、投資後の評価額は10億米ドルを超え、中国の大規模モデルスタートアップのユニコーンにランクされています。
**0100000の急激な増加の背後には、Kai-Fu Leeの個人IPの祝福と切り離せないものであり、公式ウェブサイトでさえ「過去40年間の人工知能分野におけるKai-Fu Lee博士の科学的研究と産業経験」に公に感謝しています。 **
Googleのグローバルバイスプレジデント兼大中華圏のプレジデントを務め、マイクロソフトのグローバルバイスプレジデント在任中にMicrosoft Research Asiaを設立したKai-Fu Lee氏は、2009年にSinovation Venturesを設立し、プロのスターマネージャーからVC投資家への転換を完了しました。
過去10年間で、Sinovation Worksは、Megvii、Meitu、Zhihu、4Paradigm、Horizonなど、業界の有名企業を含む300以上のプロジェクトに投資してきました。
2019年後半に、Sinovation Worksにとってどのファンドが最高のリターンだったかと尋ねられたとき、Kai-Fu Lee氏は次のように答えました。 たとえば、Megvii は 400 回戻り、VIPKID は 1200 回戻ります。 "
**何十年にもわたってAIについて説いてきたKai-Fu Leeは、かつて中国の「AIのゴッドファーザー」として知られていました。 AIへの目覚ましい投資にもかかわらず、リーは明らかに、画期的な製品でAI業界をリードしているサム・アルトマンのような起業家と異なる役割を果たしていません。 **
李凱福氏は、2018年9月に発売された新著『AI: The Future』の中で、中国と米国の競争格差について語り、「人工知能時代の競争力のバランスは、商業実行、製品品質、イノベーションのスピード、ビッグデータに傾くだろう。これらの要素こそが、中国が米国よりも優れている点だ」と大胆に予測した。 この本の中で、Kai-Fu Lee氏は「15年前に『学習』からスタートした中国のインターネットスタートアップは、アメリカのビジネスモデルからインスピレーションを得て、互いに激しく競争した… この世代の中国人起業家が人工知能の使い方を学べば、ゲームのルールは一変するだろう。 "
**ChatGPTが引き起こすAIの破壊的変化の新たなラウンドの現実に直面して、ますます多くの人々がAIの観点から中国と米国のギャップを再検討し始めています。 **
大規模モデルに関しては、アルゴリズム、計算能力、データと比較して、「真に一流のAIマネージャーであり、サム・アルトマンのような技術管理の才能があり、新技術の適用を促進する能力を持っている」とDing Lei氏は考えており、中国にはさらに欠けている欠点です。 "
**OpenAIにできるだけ早く追いつく方法は、Kai-Fu Lee氏や他の大規模モデル起業家精神の信奉者の前で最大の拷問です。 **
この半年で、OpenAIは国産大型モデルの急速な開発も急速に進展し、GPT-4、GPT-4V、GPT-4 Turboを相次いで発売しました。
国内の大型モデルはまだChatGPTに追いつこうとしていますが、より高度なモデルとOpenAIのモデルとの差は徐々に広がっています。
特筆すべきは、2020年にGPT-3がリリースされたとき、OpenAIがモデルトレーニングの技術的な詳細をすべて詳細に開示したことです。 中文大学ヒルハウス人工知能学院のウェン・ジロン(Wen Jirong)院長は、中国の多くの大型モデルにはGPT-3の影があると述べている。
しかし、OpenAIがGPT-4のオープンソース戦略を変更し、徐々に閉鎖に向けていくにつれて、一部の国内の大規模モデルは複製のキャッチアップパスを失いました。
中国に目を向けると、テストリストで1位を獲得したと主張しても、課題がゼロと1つに残されていることについて楽観視するのは難しい。
Yi-34B事前学習モデルのリリース後、Kai-Fu Lee氏は、次の1000億パラメータモデルの学習が社内で開始されたと発表しました。 対照的に、中国の多くの大手モデルメーカーは、1,000億モデルの上場とリリースを完了しています。
**パイオニアに追いつくためにスピードを上げる必要があることに加えて、商業着陸でどのように勝つかは、Kai-Fu Leeが解決しなければならないより大きな課題です。 **
AI1.0時代を経験したKai-Fu Lee氏は、大規模なモデル起業に身を捧げた後、「彼が作るアプリケーションは、一度に特定の企業に注文するのではなく、迅速に収入を生み出すことができ、非常に良い利益を生み出すことができ、収入が高品質で持続可能であることを指向している必要がある」と述べました。 "
Kai-Fu Lee氏はまた、AIGCの時代はモバイルインターネットの10倍のプラットフォームの機会を生み出し、既存のソフトウェア、ユーザーインターフェース、アプリケーションを書き換え、ユーザーのインタラクションと入り口を書き換える新しい機会があると考えています。 「WindowsがPCの普及を牽引し、Androidがモバイルインターネットエコシステムを生んだように、AIGCもまた、AIファーストのアプリケーションとAI主導のビジネスモデルの新しいバッチを生み出します。 "
上記の壮大なビジョンを実現するためには、一般的な大型モデルを十分に進化させるだけでなく、国内の大型モデルの競争に打ち勝つ必要があります。
Hengye Capitalの創業パートナーであるJiang Yi氏は、このAI大規模モデルの波の中で、中国で生き残ることができる一般的な大規模モデルプレーヤーが最終的に生き残ることができると考えています。 大規模なモデルのトレーニングには多くの投資が必要なため、多額の費用がかかり、GPT-4に追いつけない可能性があります。 "
WindowsにせよAndroidにせよ、各時代に1回限りの戦いがあるのに、Kai-Fu LeeはどのようにしてAIGC時代のゼロとワンワンを「オンリー」にしていくのか。