LLaMAに基づいているが、テンソル名を変更したことで、Kai-Fu Leeの大規模モデルが論争を巻き起こし、公式の回答が来た

出典: Heart of the Machine

画像ソース: Unbounded AIによって生成

Kai-Fu Lee氏のYi-34Bモデルは、基本的にLLaMAのアーキテクチャを採用しているが、2つのテンソルの名前を変更していることがわかった。 これに対し、「ゼロ・ワン・エブリシング」が公式な回答をした。

少し前に、オープンソースの大規模モデルの分野で新しいモデルが登場しました - コンテキストウィンドウのサイズは200kを超え、一度に400,000文字の漢字を処理できる「Yi」。

Sinovation VenturesとCE0の会長であるKai-Fu Lee氏が設立した大規模模型会社「Zero One Everything」が製作した大型モデルで、Yi-6BとYi-34Bの2つのバージョンがあります。

Hugging Face EnglishオープンソースコミュニティプラットフォームとC-Chinese評価リストによると、Yi-34Bは発売時に多くのSOTA国際ベストパフォーマンスインデックスの認定を達成し、LLaMA2やFalconなどのオープンソース競合他社を打ち負かし、グローバルなオープンソース大規模モデルの「ダブルチャンピオン」となった。

また、Yi-34Bは、当時のHugging Faceグローバルオープンソースモデルランキングで「世界最強のオープンソースモデル」と称され、国内モデルとして唯一首位を獲得したモデルとなりました。

しかし、最近、一部の研究者は、Yi-34Bモデルが基本的にLLaMAのアーキテクチャを採用しているが、2つのテンソルの名前を変更していることを発見しました。

元のリンク:

投稿には次のようにも書かれています。

Yi-34Bのコードは、実際にはLLaMAコードのリファクタリングですが、実質的には何も変更されていないようです。 このモデルは明らかにオリジナルのApacheバージョン2.0のLLaMAファイルに基づいていますが、LLaMAについては言及していません。

YiとLLaMAのコード比較。 コードリンク:

さらに、これらのコード変更は、プルリクエストを介してトランスフォーマープロジェクトに送信されるのではなく、外部コードとして追加されるため、セキュリティ上のリスクがあったり、フレームワークでサポートされていなかったりする可能性があります。 HuggingFaceのリーダーボードは、カスタムコード戦略がないため、最大200Kのコンテキストウィンドウでこのモデルをベンチマークすることさえしません。

彼らはこれが32Kモデルであると主張していますが、4Kモデルとして構成されており、RoPEスケーリング構成はなく、スケーリング方法の説明もありません(注:Zero One Thousand Thingsは以前、モデル自体が4Kのシーケンスでトレーニングされていると述べていましたが、推論フェーズで32Kにスケーリングできます)。 現時点では、微調整データに関する情報はありません。 また、疑わしいMMLUのハイスコアなど、ベンチマークを複製するための指示も提供していません。

AIの分野でしばらく働いたことのある人なら誰でも、これを見て見ぬふりはしないでしょう。 これは偽りのプロパガンダですか? ライセンス違反? 実際のベンチマークの不正行為? 誰が気にしますか? 次の論文を変えるか、この場合はベンチャー資金を全部持っていく。 Yiはベースモデルだから少なくとも標準よりは上だし、性能も本当に良い。

そして数日前、Zero One Everything Huggingfaceコミュニティで、開発者も次のように指摘しました。

私たちが知る限り、Yi は LLaMA のアーキテクチャを完全に使用していますが、2 つのテンソルの名前が変更されています。 (入力_layernorm、投稿_attention_layernorm)

議論の中で、一部のネチズンは、Meta LLaMAアーキテクチャ、コードベース、およびすべての関連リソースを正確に使用する場合、LLaMAによって規定されたライセンス契約に準拠する必要があると述べました。

LLaMAのオープンソースライセンスに準拠するために、ある開発者は名前を元に戻してhuggingfaceに戻しました。

01-ai/Yi-34B、テンソルは標準のLLaMAモデルコードと一致するように名前が変更されました。 関連リンク:

これを見ると、数日前にアリを去ってビジネスを始めた賈陽慶が友人の輪の中で言及した会社もわかります。

この件を受けて、機械の心臓部も0と1の事を検証しました。 Zero One Thingは次のように答えた。

GPTは業界で認められている確立されたアーキテクチャであり、LLaMAはそれをGPTにまとめています。 R&Dモデルの構造設計は、GPTの成熟した構造に基づいており、業界トップの公開実績に基づいており、モデルの理解とZero One Everythingチームによるトレーニングに基づいて多くの作業が行われており、これが最初のリリースと優れた結果の基礎の1つです。 同時に、Zero One Everythingは、モデルの構造レベルでの本質的なブレークスルーの探求も続けています。

モデル構造は、モデルトレーニングの一部にすぎません。 データエンジニアリング、トレーニング方法、ベビーシッター、ハイパーパラメータ設定、評価方法、評価指標の性質に関する理解の深さ、モデルの汎化能力の原則に関する研究の深さ、業界トップのAIインフラなど、他の側面でのYiのオープンソースモデルの取り組み 能力など、多くの研究開発と基礎作業が投資されており、大規模モデルの事前トレーニング段階でゼロ10のコアテクノロジーの堀でもある基本構造よりも大きな役割と価値を果たすことがよくあります。

多数のトレーニング実験の過程で、実験実行の必要性からコードの名前が変更され、オープンソースコミュニティのフィードバックを尊重し、コードを更新し、Transformerエコシステムへの統合を改善しました。

私たちはコミュニティからのフィードバックにとても感謝しています、私たちはオープンソースコミュニティを始めたばかりです、そして私たちはあなたと一緒に豊かなコミュニティを作るために働くことを望んでいます、そしてYi Open-sourceは改善し続けるために最善を尽くします。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン