قبل اثنتي عشرة ساعة فقط في الليل ، أخذ Huang Jenxun ، زعيم المعطف الجلدي ، NVIDIA لإطلاق وحدة معالجة الرسومات H200 Tensor Core GPU ، والتي يمكن تسميتها أقوى شريحة الذكاء الاصطناعي: ** تظل قوة الحوسبة كما هي ، ويرتفع الأداء ، وتتضاعف السعة ، ويرتفع عرض النطاق الترددي. ** على وجه التحديد ، فإن سرعة الاستدلال ل Llama 2 التي تعمل 70B أسرع بنسبة 90٪ من سرعة H100 ، و GPT-3 الذي يعمل بنظام 175B أسرع بنسبة 60٪ من سرعة H100 ، وأول 141 جيجابايت HBM3e تبلغ حوالي 1.8 ضعف سعة ذاكرة H100 ، وعرض النطاق الترددي 4.8 تيرابايت / ثانية ، وهو 1.4 ضعف عرض النطاق الترددي ل H100 ، وسيتم شحنه في الربع الثاني من العام المقبل.
في سياق النقص الحالي في قوة الحوسبة ، تشير التقديرات إلى أن شركات التكنولوجيا الكبرى ستبدأ في التخزين بشكل محموم مرة أخرى. يجب أن أعترف أن إيقاع لاو هوانغ ونفيديا يزداد رعبا أكثر فأكثر. علاوة على ذلك ، لا يزال H100 و H200 متوافقين مع بعضهما البعض ، مما يعني أن الشركات التي تستخدم الجيل السابق من نماذج التدريب والاستدلال الكبيرة يمكنها استبدالها بسرعة وسلاسة بأحدث H200 ، طالما أنها تستطيع شرائها.
1. ما مدى قوة الأقوى على السطح؟
يدعم H200 التوصيل البيني عالي السرعة NVLink و NVSwitch الخاص ب NVIDIA ، والذي يمكن أن يدعم التدريب والاستدلال على النماذج واسعة النطاق بأكثر من 175 مليار معلمة ، وتم تحسين أداء H200 بنسبة 60٪ إلى 90٪ مقارنة بالجيل السابق H100. وقال إيان باك، نائب رئيس أعمال الحوسبة عالية الأداء ومراكز البيانات فائقة الحجم في NVIDIA: "لإنشاء ذكاء باستخدام AIGC وتطبيقات الحوسبة عالية الأداء، يجب عليك استخدام ذاكرة GPU كبيرة وسريعة لمعالجة كميات هائلة من البيانات بسرعات عالية وكفاءة. مع H200 ، منصة الحوسبة الذكاء الاصطناعي الرائدة في العالم ، ستكون منصة الحوسبة الفائقة الرائدة الذكاء الاصطناعي الشاملة في الصناعة أسرع ، مما يحل بعض أهم التحديات في العالم. "**
بالإضافة إلى ذلك ، تعد H200 أيضا أول وحدة معالجة رسومات تحتوي على أسرع ذاكرة في العالم ، HBM3e ، مع ذاكرة فيديو تصل إلى 141 جيجابايت. وفقا لبيان NVIDIA الرسمي ، في أداء الاستدلال ل GPT-3 ، فإن أداء H100 أعلى 11 مرة من أداء A100 ، وأداء H200 أعلى 18 مرة من أداء A100 **. وقال باك أيضا أن Nvidia ستواصل تعزيز أداء H100 و H200 في الأشهر المقبلة ، ومن المتوقع أن يستمر الجيل الجديد من رقائق الذكاء الاصطناعي الرائدة التي تم إصدارها العام المقبل ، B100 القائم على بنية Blakcwell ، في دفع حدود الأداء والكفاءة ، لذا ترقبوا. في الوقت نفسه ، ستقوم Nvidia أيضا بمضاعفة إنتاج H100 ثلاث مرات في العام المقبل ، بهدف إنتاج أكثر من 2 مليون وحدة.
** على وجه التحديد ، مقارنة بالجيل السابق ، ينعكس تحسين H200 بشكل أساسي في أداء الاستدلال للطرز الكبيرة ، وهناك أيضا زيادة بأكثر من 20٪ في التطبيقات التي تعالج الحوسبة عالية الأداء ، ويتم تقليل استهلاك طاقة الاستدلال ، وهو أمر مهم جدا للمستخدمين ، إلى النصف مباشرة. ** بمباركة هذه المجموعة من اللكمات المركبة ، يمكن ل H200 تقليل تكلفة الاستخدام للمستخدمين بشكل كبير ، والاستمرار في السماح للمستخدمين “بشراء المزيد وتوفير المزيد”. إذا كان H100 هو الآن “ذهب” صناعة التكنولوجيا ، فقد نجحت Nvidia في صنع “البلاتين” هذه المرة.
ثانيا سباق التسلح في مجتمع الحوسبة الفائقة
بالإضافة إلى استثمارات Nvidia الخاصة في CoreWeave و Lambda و Vultr ، فإن Amazon Web Services و Google Cloud و Microsoft Azure و Oracle Cloud Infrastructure كلها على وشك أن تكون أول بائعين ينشرون مثيلات تستند إلى H200. بالإضافة إلى ذلك ، مع H200 الجديد ، ستوفر رقاقة GH200 الفائقة أيضا ما مجموعه حوالي 200 Exaflops من قوة الحوسبة الذكاء الاصطناعي لمراكز الحوسبة الفائقة في جميع أنحاء العالم لدفع الابتكار العلمي.
** أعلنت العديد من مراكز الحوسبة الفائقة الكبرى أنها ستبني قريبا أجهزة الكمبيوتر العملاقة الخاصة بها باستخدام نظام GH200. ** سيستخدم مركز يوريش الألماني للحواسيب الفائقة رقاقة GH200 الفائقة في الحوسبة الفائقة JUPITER. سيكون الكمبيوتر العملاق أول مقياس فائق في أوروبا وهو جزء من التعهد المشترك EuroHPC. في المجموع ، تمتلك JUPITER 24000 شريحة فائقة GH200 ، مترابطة عبر Quantum-2 Infiniband. تحتوي كل وحدة معالجة مركزية Grace على 288 نواة Neoverse ، وتحتوي وحدة المعالجة المركزية Jupiter على ما يقرب من 7 ملايين نواة ARM. يمكن أن توفر 93 Exaflops من قوة الحوسبة الذكاء الاصطناعي منخفضة الدقة و 1 Exaflops من قوة الحوسبة عالية الدقة (FP64). ومن المتوقع أن يتم تثبيت الكمبيوتر العملاق في العام المقبل.
كما سيتم بناء المركز الياباني المشترك للحوسبة المتقدمة عالية الأداء ، الذي أنشأته جامعة طوكيو وجامعة تسوكوبا ، باستخدام رقاقة GH200 الفائقة في الجيل التالي من أجهزة الكمبيوتر العملاقة. كما سيستخدم مركز تكساس للحوسبة المتقدمة ، أحد أكبر مراكز الحوسبة الفائقة في العالم ، GH200 من NVIDIA لبناء كمبيوتر عملاق ، Vista. سيستخدم المركز الوطني لتطبيقات الحوسبة الفائقة في جامعة إلينوي في أوربانا شامبين رقاقة GH200 الفائقة لبناء حاسوبه العملاق ، DeltaAI ، لمضاعفة قوة الحوسبة الذكاء الاصطناعي ثلاث مرات. بالإضافة إلى ذلك ، فإن جامعة بريستول ، التي تمولها حكومة المملكة المتحدة ، مسؤولة عن بناء أقوى كمبيوتر عملاق في المملكة المتحدة ، Isambard-الذكاء الاصطناعي ، والذي سيتم تجهيزه أيضا بأكثر من 5000 شريحة فائقة GH200 ، مما يوفر 21 Exaflops من قوة الحوسبة الذكاء الاصطناعي. بالإضافة إلى ذلك ، استنادا إلى مكتبة TensorRT-LLM مفتوحة المصدر التي أصدرتها NVIDIA في أكتوبر ، فإن رقاقة GH200 الفائقة أسرع 110 مرات من نظام وحدة المعالجة المركزية x86 ثنائي المقبس ، وما يقرب من مرتين أكثر كفاءة في استخدام الطاقة من وحدة المعالجة المركزية x86 + خادم وحدة معالجة الرسومات H20.
في قائمة أفضل 500 حوسبة فائقة عالمية ، بفضل الأنظمة الجديدة المدعومة بوحدات معالجة الرسومات H100 Tensor Core السابقة ، تقدم NVIDIA أكثر من 2.5 أداء ExaFLOPS HPC في هذه الأنظمة ، وهو تحسن كبير عن 1.6 ExaFLOPS في تصنيف مايو. في الوقت نفسه، تضم القائمة الجديدة لأفضل 500 حاسوب عملاق في العالم 379 نظاما مع أكبر عدد من الأنظمة التي تستخدم تقنية Nvidia على الإطلاق، مقارنة ب 372 في مايو، بما في ذلك 38 جهاز كمبيوتر عملاق حول العالم.
** هذا فقط بين الجامعات والمنظمات البحثية ، إذا قمت بتضمين AMD و Intel وشركات أخرى ، فلا ينبغي أن يكون سباق تسلح بعد الآن ، بل يمكن القول إنه ساخن. ** في مواجهة H200 من NVIDIA هذه المرة ، تتمثل خطة AMD المنافسة القديمة في استخدام القاتل الكبير القادم Instinct MI300X لتحسين أداء ذاكرة الفيديو. سيتم تجهيز MI300X بسعة 192 جيجابايت من HBM3 و 5.2 تيرابايت / ثانية من عرض النطاق الترددي للذاكرة ، مما يجعله أعلى من H200 من حيث السعة وعرض النطاق الترددي. ولن تكون إنتل خاملة، حيث تخطط لزيادة سعة HBM لشريحة Gaudi الذكاء الاصطناعي، وقالت إن شريحة Gaudi الذكاء الاصطناعي من الجيل الثالث التي سيتم إطلاقها العام المقبل ستزيد من الجيل السابق HBM2e بسعة 96 جيجابايت إلى 144 جيجابايت. تمتلك سلسلة Max من Intel حاليا سعة HBM2 القصوى البالغة 128 جيجابايت ، وتخطط Intel لزيادة سعة رقائق سلسلة Max في الأجيال القادمة.
ثالثا ، حول القلب ، يشير السيف إلى الحساب
لقد مر عام منذ ظهور ChatGPT المجهز ب GPT-3.5 العام الماضي ، ولا يزال الطلب على عدد كبير من الحوسبة المتسارعة الناتجة عن AIGC والنماذج الكبيرة ينمو ، وقد يستمر في الارتفاع ، كما أصبح الطلب على قوة الحوسبة التي جلبها تطوير ونشر النماذج الكبيرة نقطة الألم الأساسية للعديد من الشركات ، ولا تزال رقائق الذكاء الاصطناعي ذات الأداء الأقوى واحدة من مجالات المنافسة الرئيسية للمؤسسات النموذجية الكبيرة. ** اليوم ، طرحت NVIDIA مرة أخرى سلسلة من البنية التحتية للأجهزة وأدوات البرامج حول تطوير ونشر AIGC والنماذج الكبيرة ، مما يساعد الشركات على اختراق نقاط الألم الأساسية لتطوير النماذج الكبيرة ونشرها ، وتعزيز هيمنتها باستمرار في عصر الذكاء الاصطناعي من خلال الابتكار في القيم العددية ، والتناثر ، والترابط ، وعرض النطاق الترددي للذاكرة ، وما إلى ذلك. ** فوز القنب ، لاو هوانغ فاز حقا القنب مرة أخرى.
السؤال الذي يثير قلق الكثير من الناس الآن هو كم ستبيع H200؟ نفيديا لم تعلن بعد. يجب أن تعلم أن سعر H100 كان بين 25000 دولار و 40000 دولار ، ويتطلب الأمر آلاف القطع على الأقل لتدريب نموذج كبير ، والتكلفة أكثر من عشرات الملايين. منذ بعض الوقت ، تم توزيع مقال قصير بعنوان “كم عدد وحدات معالجة الرسومات التي نحتاجها؟” من قبل AIGC والمجتمع النموذجي الكبير على نطاق واسع ، وسرعان ما انتشر إلى زوايا الشبكات الاجتماعية الرئيسية في شكل صور. على الرغم من أنها ليست سوى قائمة بالبيانات من بعض الشركات عندما تقوم بتدريب نماذجها الكبيرة ، وتنبؤ بسيط باتجاهات التنمية المستقبلية المحتملة ، إلا أنه يمكن أيضا ملاحظة أن العالم الخارجي قلق بشأن الموارد النادرة لوحدة معالجة الرسومات ، والتي يمكن رؤيتها في الأنبوب. "يتم تدريب GPT-4 على حوالي 10000-25000 A100s ، وتحتاج Meta إلى حوالي 21000 A100s ، وتستخدم Stability الذكاء الاصطناعي حوالي 5000 A100s ، وتستخدم Falcon-40B 384 A100s للتدريب. وفقا لماسك ، قد يتطلب GPT-5 30,000-50,000 كتلة H100. يقول مورغان ستانلي إنها 25,000 وحدة معالجة رسومات. بينما نفى الرئيس التنفيذي لشركة OpenAI ، Altman ، أن الشركة كانت تدرب GPT-5 ، قال أيضا إن “OpenAI لديها نقص حاد في وحدات معالجة الرسومات ، وكلما قل عدد الأشخاص الذين يستخدمون منتجاتنا ، كان ذلك أفضل”. "
ما يمكن معرفته في الوقت الحالي هو أنه عندما يتم إطلاق H200 في الربع الثاني من العام المقبل ، فإنه سيؤدي حتما إلى عاصفة جديدة. وفقا لموقع التكنولوجيا The Verge ، فإن السؤال الرئيسي الآن هو ما إذا كان بإمكان Nvidia توفير ما يكفي من H200s للسوق ، أو ما إذا كانت ستكون محدودة في العرض مثل H100s. لم تقدم Nvidia إجابة واضحة على هذا السؤال ، قائلة فقط إن الشركة تعمل مع “مصنعي الأنظمة العالمية ومقدمي الخدمات السحابية” لتوريد هذه الرقائق ، وسيكون مقدمو الخدمات السحابية مثل Amazon و Google و Microsoft و Oracle من بين أوائل الشركات التي تستخدم H200 في الربع الثاني من العام المقبل. منذ بداية العام ، ارتفع سعر سهم Nvidia بأكثر من 230٪ ، وحتى اليوم ، بلغت القيمة السوقية الإجمالية 1.2 تريليون دولار. ارتفع سعر سهم Nvidia بأكثر من 490 دولارا بعد إصدار H200 ، وأغلق أخيرا عند 486.2 دولارا ، مرتفعا بنسبة 0.59٪ ، وارتفع بنسبة 0.3٪ بعد ساعات ، وحقق سعر السهم تسعة مكاسب متتالية. وبعد السوق في 21 نوفمبر ، بتوقيت الولايات المتحدة ، ستصدر Nvidia تقريرها المالي للربع المالي الثالث من هذا العام. من المتوقع أن تصل الأرباح المعدلة للسهم الواحد (EPS) إلى 3.01 دولار ، مقارنة ب 0.34 دولار فقط في الربع السابق من العام الماضي ، وفقا لشركة Zacks Investment Research ، وهي شركة أبحاث استثمارية أمريكية.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تم الكشف رسميا عن العمل الجديد لسيد المعطف الجلدي ، رقاقة الذكاء الاصطناعي الجديدة H200 من NVIDIA
قبل اثنتي عشرة ساعة فقط في الليل ، أخذ Huang Jenxun ، زعيم المعطف الجلدي ، NVIDIA لإطلاق وحدة معالجة الرسومات H200 Tensor Core GPU ، والتي يمكن تسميتها أقوى شريحة الذكاء الاصطناعي: ** تظل قوة الحوسبة كما هي ، ويرتفع الأداء ، وتتضاعف السعة ، ويرتفع عرض النطاق الترددي. ** على وجه التحديد ، فإن سرعة الاستدلال ل Llama 2 التي تعمل 70B أسرع بنسبة 90٪ من سرعة H100 ، و GPT-3 الذي يعمل بنظام 175B أسرع بنسبة 60٪ من سرعة H100 ، وأول 141 جيجابايت HBM3e تبلغ حوالي 1.8 ضعف سعة ذاكرة H100 ، وعرض النطاق الترددي 4.8 تيرابايت / ثانية ، وهو 1.4 ضعف عرض النطاق الترددي ل H100 ، وسيتم شحنه في الربع الثاني من العام المقبل.
في سياق النقص الحالي في قوة الحوسبة ، تشير التقديرات إلى أن شركات التكنولوجيا الكبرى ستبدأ في التخزين بشكل محموم مرة أخرى. يجب أن أعترف أن إيقاع لاو هوانغ ونفيديا يزداد رعبا أكثر فأكثر. علاوة على ذلك ، لا يزال H100 و H200 متوافقين مع بعضهما البعض ، مما يعني أن الشركات التي تستخدم الجيل السابق من نماذج التدريب والاستدلال الكبيرة يمكنها استبدالها بسرعة وسلاسة بأحدث H200 ، طالما أنها تستطيع شرائها.
1. ما مدى قوة الأقوى على السطح؟
يدعم H200 التوصيل البيني عالي السرعة NVLink و NVSwitch الخاص ب NVIDIA ، والذي يمكن أن يدعم التدريب والاستدلال على النماذج واسعة النطاق بأكثر من 175 مليار معلمة ، وتم تحسين أداء H200 بنسبة 60٪ إلى 90٪ مقارنة بالجيل السابق H100. وقال إيان باك، نائب رئيس أعمال الحوسبة عالية الأداء ومراكز البيانات فائقة الحجم في NVIDIA: "لإنشاء ذكاء باستخدام AIGC وتطبيقات الحوسبة عالية الأداء، يجب عليك استخدام ذاكرة GPU كبيرة وسريعة لمعالجة كميات هائلة من البيانات بسرعات عالية وكفاءة. مع H200 ، منصة الحوسبة الذكاء الاصطناعي الرائدة في العالم ، ستكون منصة الحوسبة الفائقة الرائدة الذكاء الاصطناعي الشاملة في الصناعة أسرع ، مما يحل بعض أهم التحديات في العالم. "**
بالإضافة إلى ذلك ، تعد H200 أيضا أول وحدة معالجة رسومات تحتوي على أسرع ذاكرة في العالم ، HBM3e ، مع ذاكرة فيديو تصل إلى 141 جيجابايت. وفقا لبيان NVIDIA الرسمي ، في أداء الاستدلال ل GPT-3 ، فإن أداء H100 أعلى 11 مرة من أداء A100 ، وأداء H200 أعلى 18 مرة من أداء A100 **. وقال باك أيضا أن Nvidia ستواصل تعزيز أداء H100 و H200 في الأشهر المقبلة ، ومن المتوقع أن يستمر الجيل الجديد من رقائق الذكاء الاصطناعي الرائدة التي تم إصدارها العام المقبل ، B100 القائم على بنية Blakcwell ، في دفع حدود الأداء والكفاءة ، لذا ترقبوا. في الوقت نفسه ، ستقوم Nvidia أيضا بمضاعفة إنتاج H100 ثلاث مرات في العام المقبل ، بهدف إنتاج أكثر من 2 مليون وحدة.
ثانيا سباق التسلح في مجتمع الحوسبة الفائقة
بالإضافة إلى استثمارات Nvidia الخاصة في CoreWeave و Lambda و Vultr ، فإن Amazon Web Services و Google Cloud و Microsoft Azure و Oracle Cloud Infrastructure كلها على وشك أن تكون أول بائعين ينشرون مثيلات تستند إلى H200. بالإضافة إلى ذلك ، مع H200 الجديد ، ستوفر رقاقة GH200 الفائقة أيضا ما مجموعه حوالي 200 Exaflops من قوة الحوسبة الذكاء الاصطناعي لمراكز الحوسبة الفائقة في جميع أنحاء العالم لدفع الابتكار العلمي.
في قائمة أفضل 500 حوسبة فائقة عالمية ، بفضل الأنظمة الجديدة المدعومة بوحدات معالجة الرسومات H100 Tensor Core السابقة ، تقدم NVIDIA أكثر من 2.5 أداء ExaFLOPS HPC في هذه الأنظمة ، وهو تحسن كبير عن 1.6 ExaFLOPS في تصنيف مايو. في الوقت نفسه، تضم القائمة الجديدة لأفضل 500 حاسوب عملاق في العالم 379 نظاما مع أكبر عدد من الأنظمة التي تستخدم تقنية Nvidia على الإطلاق، مقارنة ب 372 في مايو، بما في ذلك 38 جهاز كمبيوتر عملاق حول العالم.
ثالثا ، حول القلب ، يشير السيف إلى الحساب
لقد مر عام منذ ظهور ChatGPT المجهز ب GPT-3.5 العام الماضي ، ولا يزال الطلب على عدد كبير من الحوسبة المتسارعة الناتجة عن AIGC والنماذج الكبيرة ينمو ، وقد يستمر في الارتفاع ، كما أصبح الطلب على قوة الحوسبة التي جلبها تطوير ونشر النماذج الكبيرة نقطة الألم الأساسية للعديد من الشركات ، ولا تزال رقائق الذكاء الاصطناعي ذات الأداء الأقوى واحدة من مجالات المنافسة الرئيسية للمؤسسات النموذجية الكبيرة. ** اليوم ، طرحت NVIDIA مرة أخرى سلسلة من البنية التحتية للأجهزة وأدوات البرامج حول تطوير ونشر AIGC والنماذج الكبيرة ، مما يساعد الشركات على اختراق نقاط الألم الأساسية لتطوير النماذج الكبيرة ونشرها ، وتعزيز هيمنتها باستمرار في عصر الذكاء الاصطناعي من خلال الابتكار في القيم العددية ، والتناثر ، والترابط ، وعرض النطاق الترددي للذاكرة ، وما إلى ذلك. ** فوز القنب ، لاو هوانغ فاز حقا القنب مرة أخرى.
السؤال الذي يثير قلق الكثير من الناس الآن هو كم ستبيع H200؟ نفيديا لم تعلن بعد. يجب أن تعلم أن سعر H100 كان بين 25000 دولار و 40000 دولار ، ويتطلب الأمر آلاف القطع على الأقل لتدريب نموذج كبير ، والتكلفة أكثر من عشرات الملايين. منذ بعض الوقت ، تم توزيع مقال قصير بعنوان “كم عدد وحدات معالجة الرسومات التي نحتاجها؟” من قبل AIGC والمجتمع النموذجي الكبير على نطاق واسع ، وسرعان ما انتشر إلى زوايا الشبكات الاجتماعية الرئيسية في شكل صور. على الرغم من أنها ليست سوى قائمة بالبيانات من بعض الشركات عندما تقوم بتدريب نماذجها الكبيرة ، وتنبؤ بسيط باتجاهات التنمية المستقبلية المحتملة ، إلا أنه يمكن أيضا ملاحظة أن العالم الخارجي قلق بشأن الموارد النادرة لوحدة معالجة الرسومات ، والتي يمكن رؤيتها في الأنبوب. "يتم تدريب GPT-4 على حوالي 10000-25000 A100s ، وتحتاج Meta إلى حوالي 21000 A100s ، وتستخدم Stability الذكاء الاصطناعي حوالي 5000 A100s ، وتستخدم Falcon-40B 384 A100s للتدريب. وفقا لماسك ، قد يتطلب GPT-5 30,000-50,000 كتلة H100. يقول مورغان ستانلي إنها 25,000 وحدة معالجة رسومات. بينما نفى الرئيس التنفيذي لشركة OpenAI ، Altman ، أن الشركة كانت تدرب GPT-5 ، قال أيضا إن “OpenAI لديها نقص حاد في وحدات معالجة الرسومات ، وكلما قل عدد الأشخاص الذين يستخدمون منتجاتنا ، كان ذلك أفضل”. "