**出典:**新志源
**ガイド:**The Information によると、Google は数百人のエンジニアからなるチームを編成し、GPT-4、Midjourney、Stable Diffusion の 3 つの主要モデルの機能を組み合わせた新しいビッグキラー Gemini が発売されます。この秋。
Google の新たな大物キラー Gemini が世界に向けて登場します!
噂によると、Gemini は GPT-4 のようなテキスト会話を実行できるだけでなく、Midjourney と Stable Diffusion の機能を統合して画像を生成することもできます。
OpenAIに対抗するため、GoogleのCEOピチャイは今年4月に異例の措置を講じ、文化もコードも全く異なるチーム、Google BrainとDeepMindを統合した。
今、何百人ものエンジニアを集めたGoogle Avengersは、OpenAIのGPT-4を狙撃してAI分野のトップの座を一気に奪還するためだけに、昼夜を問わず待機している。
Google の創設者である Sergey Brin も、Gemini を個人的に訓練するために現場に戻りました。
ジェミニはこの秋に来ると言われており、Googleのテストがやって来ます。
アベンジャーズのメンバーが明らかになった
この件に詳しい関係者によると、Gemini は LLM のテキスト機能と Vincent ダイアグラムの機能を組み合わせています。
つまり、GPT-4とMidjourney/Stable Diffusionを組み合わせたものに相当します。
また、ジェミニがこれほど強力な描画能力を持っていることを外部の世界が聞いたのもこれが初めてです。
さらに、チャートの分析、テキスト説明付きのグラフの作成、テキストまたは音声コマンドを使用したソフトウェアの制御機能も提供します。
6月末には、Google DeepMindのCEOであるHassabis氏も、GeminiがAlphaGoと大規模言語モデルに統合され、Google DeepMindが数千万ドル、場合によっては数億ドルを費やす用意があるというニュースを発表した。
Geminiは、強化学習とツリー探索を使用するAlphaGOと、ロボット工学、神経科学などの分野の技術を統合します。
Google は、Bard チャットボットを強化し、Google Docs や Slides などのエンタープライズレベルのアプリケーションを促進する Gemini に大きく賭けていると言えます。
さらにGoogleは、クラウドサーバーレンタルサービスを通じて開発者にGeminiへのアクセス料金を請求したいと考えている。
現在、Google Cloud は Vertex AI 製品を通じて Google AI モデルへのアクセスを販売しています。
これらの新機能が実現すれば、GoogleがMicrosoftに追いつく可能性は十分にある。
結局のところ、Microsoft は、AI 機能を含む Office 365 アプリや、ユーザーに ChatGPT へのアクセスを販売するアプリなど、すでに AI 製品ではるかに先を行っています。
ブルームバーグのベンチャーキャピタル部門であるブルームバーグ・ベータのAIスタートアップ投資家ジェームズ・チャム氏はブルームバーグに次のように語った。 OpenAIに追いつきますか?」
さて、ついにGPT-4に匹敵するモデルが登場したようです。
OpenAI の台頭により、Google は中核となる検索ビジネスを確保しながら、新しいテクノロジーの導入に努めなければなりません。
関係者によると、GoogleはGeminiを発売する前に一部の製品でGeminiを使用する可能性が高いという。
これまでGoogleは検索を改善するためにより単純なモデルを使用してきましたが、BardやGeminiのような製品は、より人間らしい答えを生成するために大量の画像やテキストを分析する必要があります。
このような大量のデータによってもたらされる潜在的な莫大なサーバーコストも、Google が制御しなければならない問題です。
アップデートされた吟遊詩人はより強力です
The Information によると、Google はジェミニを多数の YouTube 動画でトレーニングしました。
さらに、Gemini はオーディオとビデオをモデル自体に統合してマルチモーダル機能を形成することもでき、後者は多くの研究者によって AI の次のフロンティアであると考えられています。
たとえば、YouTube ビデオでトレーニングされたモデルは、整備士がビデオに基づいて車の修理の問題を診断するのに役立ちます。
あるいは、ユーザーが作成したい Web サイトやアプリケーションのスケッチからソフトウェア コードを生成することもできます。 OpenAI は以前に GPT-4 のこの機能を実証しましたが、まだ利用できません。
OpenAIのボス、グレッグ・ブロックマン氏は、GPT-4が画像を読み取ってWebページのコードを書く能力を実証したが、それはハトのようだ
YouTube コンテンツの使用は、ユーザーが見たいコンテンツの説明に基づいて詳細なビデオを自動的に生成する、より高度な Text-to-Video ソフトウェアを Google が開発するのにも役立ちます。
これは、現在ハリウッドのコンテンツクリエイターが注目している、Googleが支援する新興企業RunwayMLが開発中のテクノロジーに似ている。
2011 年、Google は、Gmail の検索結果、正確な広告、自動入力機能を最適化するための Google 独自の AI を構築することを目的とした Google Brain (Google Brain) を作成しました。
一方、ロンドンの DeepMind は学術研究により重点を置いており、2016 年には AlphaGo が Li Shishi を 4 対 1 で破り、これは汎用人工知能 (AGI) への道における重要なマイルストーンとみなされています。
Googleがデータセンターの運用効率を向上させるためにDeepMindが開発したソフトウェアを使用することを除けば、DeepMindの取り組みは同社の中核製品に大きな影響を与えていない。
しかし、昨年末にすべてが変わりました。
2022 年 11 月に OpenAI が ChatGPT をリリースすると、ユーザー数はわずか数週間で数千万人に急増し、その後短期間でユーザー数 1 億人を突破するという快挙を達成しました。
数か月以内に、OpenAI の収益は数億ドルに達し、この期間中にマイクロソフトは新たに 100 億ドルを投資し、無数のホットマネーが OpenA に流入し、OpenAI の市場価値と人気は前例のない高さに達しました。
この時点で Google は、AI 分野における自社のリーダーシップがすでに危機に瀕していることに気づきました。
今年の 4 月、消極的な Google は究極の一手をリリースしました。Google Brain と DeepMind が正式に統合されました。
「王は王を見ない」の2つの主要な区分は実際には一致しており、この動きも人々の顎に衝撃を与えました。
統合されたGoogle DeepMindはDeepMind CEOのデミス・ハサビス氏が率い、元Google AI責任者のジェフ・ディーン氏がチーフサイエンティストに就任する。
現在、Google Brain や DeepMind で働いていた研究者を含む、少なくとも 26 人の大物たちが Gemini の開発に取り組んでいます。
関係者によると、DeepMindの幹部であるOriol Vinyals氏とKoray Kavukcuoglu氏の2名が、元Google Brainの責任者であるJeff Dean氏とともにGeminiの開発を主導することになる。彼らは、Gemini の開発に携わる何百人もの従業員を監督することになります。
また、Googleの共同創設者サーゲイ・ブリン氏も久しぶりに復帰したベテランだ。
サーゲイ・ブリンとラリー・ペイジ
彼は Gemini モデルを評価し、スタッフがモデルをトレーニングするのを支援してきました。
報道によると、ジェミニが攻撃的な可能性のあるコンテンツで誤ってトレーニングされたことをチームが発見した後、ブリンはモデルを再トレーニングするための技術的な意思決定プロセスにも関与していたという。
Google Brain と DeepMind の合併により、新しいチームはすぐに非常に深刻な問題に直面しました。コードをどのように結合するか、開発には誰のソフトウェアを使用するかなどです。
結局のところ、これら 2 つの部門のコード ベースは以前は完全に独立していました。
双方はそれぞれの譲歩の後、妥協に達しましたが、
モデルの事前トレーニング段階では、機械学習モデルのトレーニングに Google Brain のソフトウェア Pax を使用します。
後の段階で、DeepMind のソフトウェア Core Model Strike を使用してモデルを開発します
しかし内部関係者によると、使い慣れないソフトウェアを使用しなければならないことに憤りを感じている従業員が今もたくさんいるという。
それに加えて、Google と DeepMind は ChatGPT 用に独自のモデルを開発しました。
DeepMind は、未公開モデル Chipmunk のさまざまな亜種を使用して ChatGPT と競合するシステムを開発する、開発コード名 Goodall のプロジェクトに着手しました。 Google Brain が Gemini を開発しました。
結局、DeepMind は当初の取り組みを放棄し、Gemini を開発する Google Brain ベースのプロジェクトに協力することを選択しました。
興味深いことに、Google Brain はリモートワークポリシーに関して DeepMind よりもはるかに緩和されていると言われています。
OpenAI 側の状況と比較すると、Google は疲弊する内部摩擦に巻き込まれています。
まず、リアム・フェダス、バレット・ゾフ、ルーク・メッツ、研究者など、残った一連の高レベルの技術的才能が OpenAI への参加を選択しました。
Google は、Jacob Devlin や Jack Rae を再雇用するなど、一部の人材を取り戻しましたが。
Jacob Devlin 氏は、Bard の開発を批判した後、今年 1 月に OpenAI に行きました。そして、Jack Rae は元 DeepMind 研究者で、2022 年に OpenAI に加わる予定です。
以前、デブリン氏はピチャイ氏、ディーン氏、その他の幹部に対し、吟遊詩人チームによるChatGPTデータトレーニングの使用について懸念を表明し、その後辞任した。
そして、隆盛を極めるChatGPTに対抗し、人工知能分野のリーダーに返り咲くために、Googleは今年2月に急遽チャットロボットBardをリリースした。
しかし、記者会見は低レベルの事実誤認により覆され、同社の市場価値は一夜にして数千億ドルも蒸発した。
グーグルの最初の反撃は惨敗に終わった。
5 月に、新しい PaLM 2 モデルが Google I/O カンファレンスでリリースされました。これにより、Bard の質問に答えてコードを生成する能力が大幅に向上しました。
また、生成 AI と独自の従来の検索サービスを組み合わせた Search Generative Experience (SGE) も同時にリリースされました。
簡単に言うと、SGE は Bing Chat に似た AI 検索サービスですが、新しいチャット ウィンドウを直接使用する代わりに、AI が生成したコンテンツ コレクションを検索結果にユーザーに表示します。
つまり、Googleは検索中にAIを活用して検索内容の説明をしたり、ユーザーの質問に答えたり、ユーザーの旅行計画を支援したりする。
また、利用可能なすべてのコンテンツが AI によって収集された返信に集中しているため、ユーザーはショッピングのように複数のリンク間を行ったり来たりする必要がなくなり、リンクの背後にあるどの情報が真実であるかを判断するのに労力を費やす必要もなくなりました。
Google は最近のアップデートで、SGE が AI によって生成された返信コンテンツに写真やビデオを添付できる機能を追加し、ユーザーが検索する知識や情報をより直感的に理解できるようにしました。
Bing Chat と同様に、SGE の AI 応答には、AI が生成した応答の内容をサポートするタイムスタンプ付きのリンクが含まれます。ユーザーが関連情報に興味がある場合は、リンクをクリックして特定のコンテンツをより包括的に理解することができます。
AI によって生成された応答では、多くの知識ベースの情報や概念について、ユーザーはマウスを直接マウスの上に置くと、概念の正確な定義を取得できます。
この機能は、科学、歴史、経済などの知識ベースの質問に対する AI の回答に利用できるようになりました。
情報を学習または理解するために非常に長い Web ページ情報を閲覧する必要があるユーザーのために、SGE は Web ページ内の AI 要約機能 (閲覧中の SGE) も更新しました。
この機能は、いつでも利用できる「アウトラインジェネレーター」をユーザーに提供することに相当します。長い Web コンテンツの場合、ユーザーはこれを使用して概要を生成し、要点をすばやく把握できます。
以下の「ページの探索」セクションでは、ページのコンテンツに関連する質問も表示されます。ユーザーが質問に興味がある場合は、直接クリックして、記事の内容がこれらの質問にどのように答えているかを確認してください。
ただし、Google の保守的な市場戦略により、SEG は現在、米国内のユーザーのみが待機リストを使用してテストを申請することを許可しています。
したがって、おそらくほとんどのユーザーは、Google がそのようなサービスを開始したことさえ知りません。
つまり、2 つの部門の統合後、少なくとも 21 の生成 AI ツールがテストされ、ユーザーに人生のアドバイスや心理カウンセリングを提供するツールもテストされたと報告されています。
昨年、意識を持ったチャットAIを搭載していると主張したエンジニアを緊急解雇したGoogleは、現在そのような「センシティブな」領域の探索を開始しており、本気でやってみようと決意したことが分かる。
しかし、Gemini プロジェクトを担当する一部のエンジニアにとって、2 つのチームの合併は確かに大きな驚きでした。
以前 DeepMind で働いていた James Molloy 氏と Tom Hennigan 氏は、Google の上級研究員 Paul Barham 氏とともにインフラストラクチャに取り組みました。
Timothy Lillicrap 氏は、DeepMind でチェスや囲碁のシステム開発に取り組んでおり、Google Brain の研究者である Emily Pitler 氏は、数学や Web 検索などの特殊なタスクを実行できる LLM の作成に重点を置いたチームを率いています。
しかし、統合された組織の人員配置の問題に加えて、Gemini チームは、モデルのトレーニングに使用できるデータの決定など、開発プロセス中に大きな課題にも直面しました。
そのため、Googleの弁護士はトレーニングの取り組みを綿密に評価している。
あるケースでは、著作権保持者からの反対を恐れて、弁護士が教科書から訓練データを削除するよう研究者に命じた。
そしてそのデータは、天文学や生物学などの分野に関する質問に答えるモデルをトレーニングするのに役立つ可能性があります。
しかし、元グーグル幹部でベンチャーキャピタル企業フェリシス・ベンチャーズの創設者であるアイディン・センクット氏は、ジェミニの放出により「グーグルは極度に保守的になるのではなく、再び最前線に立つ決意をしている」ことが分かるとコメントした。
Aydin Senkut 氏も Google の決定に同意しています。
「それは正しい方向です。最終的には火がつきます。」
参考文献:
4.72K 人気度
16.93K 人気度
12.1K 人気度
6K 人気度
95.24K 人気度
GPT-4キラーGoogle Geminiが攻撃! 26 人の研究開発リーダーのリストが公開され、Midjourney のような画像生成機能を提供
**出典:**新志源
**ガイド:**The Information によると、Google は数百人のエンジニアからなるチームを編成し、GPT-4、Midjourney、Stable Diffusion の 3 つの主要モデルの機能を組み合わせた新しいビッグキラー Gemini が発売されます。この秋。
Google の新たな大物キラー Gemini が世界に向けて登場します!
噂によると、Gemini は GPT-4 のようなテキスト会話を実行できるだけでなく、Midjourney と Stable Diffusion の機能を統合して画像を生成することもできます。
今、何百人ものエンジニアを集めたGoogle Avengersは、OpenAIのGPT-4を狙撃してAI分野のトップの座を一気に奪還するためだけに、昼夜を問わず待機している。
Google の創設者である Sergey Brin も、Gemini を個人的に訓練するために現場に戻りました。
ジェミニはこの秋に来ると言われており、Googleのテストがやって来ます。
最強の GPT-4 キラーを生み出すためにジェミニに賭けます
この件に詳しい関係者によると、Gemini は LLM のテキスト機能と Vincent ダイアグラムの機能を組み合わせています。
つまり、GPT-4とMidjourney/Stable Diffusionを組み合わせたものに相当します。
さらに、チャートの分析、テキスト説明付きのグラフの作成、テキストまたは音声コマンドを使用したソフトウェアの制御機能も提供します。
6月末には、Google DeepMindのCEOであるHassabis氏も、GeminiがAlphaGoと大規模言語モデルに統合され、Google DeepMindが数千万ドル、場合によっては数億ドルを費やす用意があるというニュースを発表した。
Geminiは、強化学習とツリー探索を使用するAlphaGOと、ロボット工学、神経科学などの分野の技術を統合します。
さらにGoogleは、クラウドサーバーレンタルサービスを通じて開発者にGeminiへのアクセス料金を請求したいと考えている。
これらの新機能が実現すれば、GoogleがMicrosoftに追いつく可能性は十分にある。
結局のところ、Microsoft は、AI 機能を含む Office 365 アプリや、ユーザーに ChatGPT へのアクセスを販売するアプリなど、すでに AI 製品ではるかに先を行っています。
ブルームバーグのベンチャーキャピタル部門であるブルームバーグ・ベータのAIスタートアップ投資家ジェームズ・チャム氏はブルームバーグに次のように語った。 OpenAIに追いつきますか?」
さて、ついにGPT-4に匹敵するモデルが登場したようです。
Google、コンフォートゾーンから追い出される
OpenAI の台頭により、Google は中核となる検索ビジネスを確保しながら、新しいテクノロジーの導入に努めなければなりません。
関係者によると、GoogleはGeminiを発売する前に一部の製品でGeminiを使用する可能性が高いという。
これまでGoogleは検索を改善するためにより単純なモデルを使用してきましたが、BardやGeminiのような製品は、より人間らしい答えを生成するために大量の画像やテキストを分析する必要があります。
このような大量のデータによってもたらされる潜在的な莫大なサーバーコストも、Google が制御しなければならない問題です。
YouTube を活用しましょう
The Information によると、Google はジェミニを多数の YouTube 動画でトレーニングしました。
たとえば、YouTube ビデオでトレーニングされたモデルは、整備士がビデオに基づいて車の修理の問題を診断するのに役立ちます。
あるいは、ユーザーが作成したい Web サイトやアプリケーションのスケッチからソフトウェア コードを生成することもできます。 OpenAI は以前に GPT-4 のこの機能を実証しましたが、まだ利用できません。
YouTube コンテンツの使用は、ユーザーが見たいコンテンツの説明に基づいて詳細なビデオを自動的に生成する、より高度な Text-to-Video ソフトウェアを Google が開発するのにも役立ちます。
これは、現在ハリウッドのコンテンツクリエイターが注目している、Googleが支援する新興企業RunwayMLが開発中のテクノロジーに似ている。
Google DeepMind、包括的な反撃を開始
2011 年、Google は、Gmail の検索結果、正確な広告、自動入力機能を最適化するための Google 独自の AI を構築することを目的とした Google Brain (Google Brain) を作成しました。
一方、ロンドンの DeepMind は学術研究により重点を置いており、2016 年には AlphaGo が Li Shishi を 4 対 1 で破り、これは汎用人工知能 (AGI) への道における重要なマイルストーンとみなされています。
Googleがデータセンターの運用効率を向上させるためにDeepMindが開発したソフトウェアを使用することを除けば、DeepMindの取り組みは同社の中核製品に大きな影響を与えていない。
しかし、昨年末にすべてが変わりました。
数か月以内に、OpenAI の収益は数億ドルに達し、この期間中にマイクロソフトは新たに 100 億ドルを投資し、無数のホットマネーが OpenA に流入し、OpenAI の市場価値と人気は前例のない高さに達しました。
**Google Brain+DeepMind=? **
今年の 4 月、消極的な Google は究極の一手をリリースしました。Google Brain と DeepMind が正式に統合されました。
関係者によると、DeepMindの幹部であるOriol Vinyals氏とKoray Kavukcuoglu氏の2名が、元Google Brainの責任者であるJeff Dean氏とともにGeminiの開発を主導することになる。彼らは、Gemini の開発に携わる何百人もの従業員を監督することになります。
彼は Gemini モデルを評価し、スタッフがモデルをトレーニングするのを支援してきました。
報道によると、ジェミニが攻撃的な可能性のあるコンテンツで誤ってトレーニングされたことをチームが発見した後、ブリンはモデルを再トレーニングするための技術的な意思決定プロセスにも関与していたという。
「偶然の結婚」の痛み
Google Brain と DeepMind の合併により、新しいチームはすぐに非常に深刻な問題に直面しました。コードをどのように結合するか、開発には誰のソフトウェアを使用するかなどです。
結局のところ、これら 2 つの部門のコード ベースは以前は完全に独立していました。
双方はそれぞれの譲歩の後、妥協に達しましたが、
モデルの事前トレーニング段階では、機械学習モデルのトレーニングに Google Brain のソフトウェア Pax を使用します。
後の段階で、DeepMind のソフトウェア Core Model Strike を使用してモデルを開発します
しかし内部関係者によると、使い慣れないソフトウェアを使用しなければならないことに憤りを感じている従業員が今もたくさんいるという。
DeepMind は、未公開モデル Chipmunk のさまざまな亜種を使用して ChatGPT と競合するシステムを開発する、開発コード名 Goodall のプロジェクトに着手しました。 Google Brain が Gemini を開発しました。
結局、DeepMind は当初の取り組みを放棄し、Gemini を開発する Google Brain ベースのプロジェクトに協力することを選択しました。
興味深いことに、Google Brain はリモートワークポリシーに関して DeepMind よりもはるかに緩和されていると言われています。
内部摩擦、当惑、反撃
OpenAI 側の状況と比較すると、Google は疲弊する内部摩擦に巻き込まれています。
まず、リアム・フェダス、バレット・ゾフ、ルーク・メッツ、研究者など、残った一連の高レベルの技術的才能が OpenAI への参加を選択しました。
Google は、Jacob Devlin や Jack Rae を再雇用するなど、一部の人材を取り戻しましたが。
Jacob Devlin 氏は、Bard の開発を批判した後、今年 1 月に OpenAI に行きました。そして、Jack Rae は元 DeepMind 研究者で、2022 年に OpenAI に加わる予定です。
そして、隆盛を極めるChatGPTに対抗し、人工知能分野のリーダーに返り咲くために、Googleは今年2月に急遽チャットロボットBardをリリースした。
しかし、記者会見は低レベルの事実誤認により覆され、同社の市場価値は一夜にして数千億ドルも蒸発した。
グーグルの最初の反撃は惨敗に終わった。
また、生成 AI と独自の従来の検索サービスを組み合わせた Search Generative Experience (SGE) も同時にリリースされました。
簡単に言うと、SGE は Bing Chat に似た AI 検索サービスですが、新しいチャット ウィンドウを直接使用する代わりに、AI が生成したコンテンツ コレクションを検索結果にユーザーに表示します。
また、利用可能なすべてのコンテンツが AI によって収集された返信に集中しているため、ユーザーはショッピングのように複数のリンク間を行ったり来たりする必要がなくなり、リンクの背後にあるどの情報が真実であるかを判断するのに労力を費やす必要もなくなりました。
Bing Chat と同様に、SGE の AI 応答には、AI が生成した応答の内容をサポートするタイムスタンプ付きのリンクが含まれます。ユーザーが関連情報に興味がある場合は、リンクをクリックして特定のコンテンツをより包括的に理解することができます。
この機能は、科学、歴史、経済などの知識ベースの質問に対する AI の回答に利用できるようになりました。
この機能は、いつでも利用できる「アウトラインジェネレーター」をユーザーに提供することに相当します。長い Web コンテンツの場合、ユーザーはこれを使用して概要を生成し、要点をすばやく把握できます。
以下の「ページの探索」セクションでは、ページのコンテンツに関連する質問も表示されます。ユーザーが質問に興味がある場合は、直接クリックして、記事の内容がこれらの質問にどのように答えているかを確認してください。
したがって、おそらくほとんどのユーザーは、Google がそのようなサービスを開始したことさえ知りません。
つまり、2 つの部門の統合後、少なくとも 21 の生成 AI ツールがテストされ、ユーザーに人生のアドバイスや心理カウンセリングを提供するツールもテストされたと報告されています。
Gemini プロジェクト、現在の状況は非常に良好です
しかし、Gemini プロジェクトを担当する一部のエンジニアにとって、2 つのチームの合併は確かに大きな驚きでした。
以前 DeepMind で働いていた James Molloy 氏と Tom Hennigan 氏は、Google の上級研究員 Paul Barham 氏とともにインフラストラクチャに取り組みました。
Timothy Lillicrap 氏は、DeepMind でチェスや囲碁のシステム開発に取り組んでおり、Google Brain の研究者である Emily Pitler 氏は、数学や Web 検索などの特殊なタスクを実行できる LLM の作成に重点を置いたチームを率いています。
しかし、統合された組織の人員配置の問題に加えて、Gemini チームは、モデルのトレーニングに使用できるデータの決定など、開発プロセス中に大きな課題にも直面しました。
そのため、Googleの弁護士はトレーニングの取り組みを綿密に評価している。
あるケースでは、著作権保持者からの反対を恐れて、弁護士が教科書から訓練データを削除するよう研究者に命じた。
そしてそのデータは、天文学や生物学などの分野に関する質問に答えるモデルをトレーニングするのに役立つ可能性があります。
しかし、元グーグル幹部でベンチャーキャピタル企業フェリシス・ベンチャーズの創設者であるアイディン・センクット氏は、ジェミニの放出により「グーグルは極度に保守的になるのではなく、再び最前線に立つ決意をしている」ことが分かるとコメントした。
Aydin Senkut 氏も Google の決定に同意しています。
「それは正しい方向です。最終的には火がつきます。」
参考文献: