Google публично разделяет обучение и вывод AI на TPU 8t·8i... сможет ли это потрясти рынок, сосредоточенный вокруг Nvidia

robot
Генерация тезисов в процессе

Гугл, чтобы подготовиться к эпохе «интеллектуальных агентов», изменил свою стратегию в области полупроводников для искусственного интеллекта. Он отказался от прежнего подхода использования одного универсального чипа для одновременной обработки обучения и вывода, и выпустил отдельные решения: «TPU 8t» для масштабного обучения и «TPU 8i» для высокопараллельных задач вывода.

23-го числа (по местному времени) на мероприятии «Google Cloud Next 2026», проходившем в Лас-Вегасе, США, компания представила два кастомных AI-специализированных полупроводника. В компании заявили, что рынок ИИ быстро делится на «этап построения моделей» и «этап внедрения моделей в реальную эксплуатацию», и объяснили, что новые TPU созданы именно для адаптации к этим изменениям спроса.

Если ранее «Ironwood TPU» был ориентирован на эпоху вывода как единственная флагманская платформа, то новая генерация отличается своей структурной двоичностью. Это интерпретируется как решение Google, что с распространением AI-агентов инфраструктура для обучения больших моделей и инфраструктура для быстрого вывода этих моделей в облаке одновременно растут.

TPU 8t: усиление производительности и эффективности масштабного обучения AI

TPU 8t — это чип, предназначенный для масштабного предварительного обучения и задач, связанных с внедрением встраиваемых моделей. Google заявил, что устройство использует «3D кольцевую» топологию сети, повышающую масштабируемость больших кластеров. Одиночный Pod может подключать до 9600 чипов, что больше, чем 9216 у Ironwood.

Основная особенность — поддержка «SparseCore» и 4-битных плавающих точек. SparseCore — это специализированный ускоритель для обработки нерегулярных обращений к памяти, часто встречающихся при поиске больших языковых моделей. Google утверждает, что за счет сочетания низкобитных вычислений снижается нагрузка на пропускную способность памяти, что позволяет сохранять точность даже при меньшем объеме памяти, одновременно удваивая пропускную способность.

Это соответствует тренду, известному как «квантование». Уменьшение количества бит на параметр означает возможность работы с большими моделями на системах с меньшими характеристиками, а также снижение энергопотребления и занимаемой площади. Google заявил, что в условиях масштабного обучения TPU 8t обеспечивает до 2,7-кратного повышения производительности за доллар по сравнению с Ironwood.

TPU 8i: фокус на скорости вывода и параллельной обработке

TPU 8i специально разработан для этапа вывода обученных моделей в реальную эксплуатацию. Он особенно эффективен при постобработке больших моделей и при обработке большого количества одновременных запросов пользователей.

По словам Google, у TPU 8i в три раза больше статической оперативной памяти по сравнению с Ironwood. Это позволяет ему размещать более крупные «ключ-значение» кэши, необходимые для вывода больших языковых моделей, что ускоряет генерацию текста. Кроме того, Google внедрила систему под названием «Collectives Acceleration Engine», которая ускоряет синхронные и редукционные операции, необходимые при автогрессивном декодировании и «цепочках мышления».

Связь между чипами также была переработана. Введена кастомная топология сети под названием «Boardfly ICI», которая может соединять до 1152 чипов. Ее цель — обеспечить более эффективное взаимодействие между всеми чипами, сокращая расстояние и число прыжков при передаче данных. Google заявил, что в моделях с гибридной архитектурой и моделях вывода, использующих «все-все» коммуникацию, общее число прыжков может снизиться до 50%.

Экономическая эффективность также является важным аспектом. Google отметил, что дизайн TPU 8i обеспечивает примерно 80% повышение производительности за доллар по сравнению с Ironwood в условиях низкой задержки, что особенно важно для обслуживания сверхмасштабных моделей с экспертным смешанным архитектурным подходом.

Стратегия Google: сможет ли она конкурировать с рынком, доминируемым NVIDIA?

Google добавил, что эффективность по ватту у TPU 8t и TPU 8i выросла в два раза по сравнению с предыдущим поколением. Энергоэффективность — ключевой фактор прибыльности крупных дата-центров AI, поэтому это повышение имеет большое значение.

Этот запуск — не просто анонс нового полупроводника, а скорее сигнал о том, что Google официально разделяет свою стратегию инфраструктуры AI на «обучение» и «вывод». В условиях, когда конкуренция в сфере AI смещается с показателей моделей на операционные издержки, скорость отклика и параллельную обработку, Google стремится усилить свои позиции в облачном бизнесе с помощью TPU.

Мнения рынка сходятся во мнении, что окончательный успех будет зависеть от скорости внедрения новинок клиентами и совместимости программного обеспечения в условиях конкуренции с экосистемой, ориентированной на NVIDIA. Однако с ростом популярности AI-агентов спрос на полупроводники для обучения и вывода растет синхронно, и стратегия двоичной архитектуры TPU, вероятно, станет важным поворотным моментом в будущем конкуренции за инфраструктуру AI.

TP AI Внимание: данный текст основан на модели TokenPost.ai и является кратким изложением. Основной контент может содержать пропуски или несоответствия фактам.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить