Пока все в Силиконовой долине стремительно приезжают, есть лаборатория, которая делает наоборот. Ровно год назад (20 января 2025 года) родился DeepSeek R1, который разрушил миф о высоких порогов отрасли чрезвычайно эффективным и недорогим способом. Оглядываясь назад, я понимаю, что это не просто выпуск модели, а скорее переосмысление всех правил соревнований по искусственному интеллекту. Но ещё интереснее то, что когда этот «отставший человек» должен был быть забыт, мир меняется из-за этого.
Почему DeepSeek — это противоположность в «войне роллов» Силиконовой долины
За последний год ключевым словом для глобального ИИ было одно слово: объём.
Объемное финансирование через OpenAI, объёмные инвестиции в Microsoft, оценка объемов Anthropic — даже Маск не может устоять перед соблазном капитала, только что привлёк 20 миллиардов долларов для xAI. Все гиганты подвергаются принуждению капитала в обмен на прибыль через коммерциализацию. Но в этой гонке, где все стремятся монетизировать, DeepSeek выбрал путь «нуля внешнего финансирования».
В чём заключается уверенность в этом?
Будучи материнской компанией DeepSeek, Magic Square Quant достигла очень высокой доходности в 53% в прошлом году, с прибылью более 700 миллионов долларов США (около 5 миллиардов юаней). Лян Вэньфэн использовал эти старые деньги для прямой поддержки новой мечты «DeepSeek AGI». Эта модель даёт DeepSeek чрезвычайно роскошный контроль над деньгами — без диктовки со стороны руководства, без болезней крупной компании, только ответственность за технологии.
По сравнению с лабораториями, получившими значительное финансирование, преимущества DeepSeek очевидны. Многие финансисты оказались в тщеславии и внутренних конфликтах бумажного богатства, например, недавние частые уходы сотрудников из Thinking Machine Lab или Meta AI Lab Сяо Чжа. Но DeepSeek не нужно спешить запускать универсальное приложение ради хороших финансовых отчётов, а также не нужно внедрять мультимодальность под горячие точки рынка.
Среди конкурирующих продуктов, которые хотят писать универсальный, мультимодальный и AI-поиск на лице, DeepSeek по-прежнему поддерживает минималистичный пакет установки на 51,7 МБ, не гоняется за горячими точками, не привлекает внимания к рекламе и сосредоточен на каждом улучшении модели рассуждения. На первый взгляд, это «отставание». Но на самом деле модели DeepSeek по-прежнему остаются первым выбором для большинства платформ.
Когда мир «катится», DeepSeek повышает эффективность
Суть в том, что DeepSeek переписывает правила всего конкурса по искусственному интеллекту.
Если год назад конкуренция всё ещё была выше, чем чьи параметры были больше, то появление DeepSeek резко изменило этот конкурс на то, кто эффективнее и у кого дешевле. В недавнем обзоре OpenAI и её внутренняя команда признали, что выпуск DeepSeek R1 вызвал «большой толчок» в гонке ИИ того времени и даже был описан как «сейсмический шок».
Согласно анализу ICIS Intelligence Services, DeepSeek полностью ломает «детерминизм вычислительной мощности». Это показало миру, что даже при ограниченном количестве чипов и крайне ограниченных затратах модели всё равно можно обучать с производительностью, сопоставимой с топовыми системами США. Это напрямую привело к глобальной гонке ИИ — от «создания самой умной модели» к «кто сможет сделать модель более эффективной, дешевле и проще в развертывании».
В недавно опубликованном «Глобальном отчете о внедрении ИИ 2025» Microsoft назвала рост DeepSeek «одним из самых неожиданных достижений». Отчёт выявляет явление: DeepSeek не только захватил внутренний рынок (89% доли рынка), но и укоренился в Африке, Беларуси, Кубе и других труднодоступных регионах для американских технологических гигантов. В Африке использование DeepSeek в 2–4 раза выше, чем в других регионах. Благодаря своей свободной стратегии и функциям открытого исходного кода, она устраняет дорогие платы за подписку и пороговые платежи по кредитным картам.
Microsoft также вынуждена признать, что следующие миллиардные пользователи ИИ могут прийти не из традиционных технологических центров, а из тех регионов, охваченных DeepSeek.
Европа: от реактивного принятия к активным инновациям
Влияние DeepSeek распространилось по всему миру.
Европа всегда пассивно использовала американский ИИ, и хотя у неё есть собственная модель Mistral, она оставалась вялой. Успех DeepSeek открыл новый путь для европейцев: если китайские лаборатории с ограниченными ресурсами могут это сделать, почему Европа не может?
По данным журнала Wired, европейское технологическое сообщество запускает гонку по «созданию европейской версии DeepSeek». Многие европейские разработчики начали создавать крупные модели с открытым исходным кодом, среди которых проект SOOFI ясно дал понять, что «мы станем DeepSeek Европы». Влияние DeepSeek также усилило тревогу Европы по поводу «суверенитета ИИ» — они начинают понимать, что чрезмерная зависимость от американских закрытых моделей является риском, и эффективная открытая модель DeepSeek — именно тот ориентир, который им нужен.
Hugging Face, крупнейшее в мире сообщество открытого исходного кода, занимающееся искусственным интеллектом, также опубликовало обзор влияния года выхода R1, и основная мысль в том, что «китайский искусственный интеллект действительно выдержал себя». Они считают, что появление R1 стало переломным моментом, доказывающим, что даже при ограниченной вычислительной мощности открытый исходный код способен обогнать технические уголки. По их мнению, настоящая ценность R1 заключается в снижении планки:
Технически: Раскрывайте детали рассуждения, чтобы продвинутые способности можно было использовать повторно.
Применение: Расслабленный протокол (MIT) позволяет быстро интегрировать модель в коммерческую реализацию.
Психологически: Это укрепило доверие китайского ИИ от «следующего» до «ведущего».
Сейчас количество загрузок открытых моделей Китая в 2026 году доминирует в мире. Не только крупные отечественные производители и стартапы полностью принимают открытый исходный код, но даже многие новые зарубежные модели фактически основаны на китайской модели открытого исходного кода.
V4: Вторая глава войны против «объема»
Если R1 — это демонстрация от DeepSeek для индустрии ИИ, станет ли грядущий V4 ещё одной операцией, противостоящей здравому смыслу?
Согласно недавним техническим открытиям и официальному коду, существует несколько ключевых моментов V4, на которые стоит обратить внимание:
Новая модель MODEL1 была раскрыта
В официальной кодовой базе DeepSeek на GitHub случайно была обнаружена совершенно новая подсказка с кодовым названием «MODEL1». В логической структуре кода MODEL1 представлен как отдельная ветвь наряду с V32 (то есть DeepSeek-V3.2). Это означает, что MODEL1 не использует конфигурацию параметров или инфраструктуру серии V3, а представляет собой новый и независимый технический путь.
Код показывает, что он использует совершенно иную стратегию раскладки KV Cache по сравнению с текущей моделью и вводит новый механизм обработки разрежённости. На пути декодирования FP8 проводится множество целенаправленных корректировок оптимизации памяти, что указывает на то, что новая модель может обладать лучшей производительностью по эффективности вывода и заполненности памяти.
В отрасли обычно предполагается, что две недавние успешные работы DeepSeek, «mHC» по оптимизации остаточных связей, и «Engram», модуль памяти на базе искусственного интеллекта, с большой вероятностью будут интегрированы в архитектуру MODEL1.
Основные компетенции: генерация кода и ультра-длинный контекст
Сегодня, когда общие обсуждения стали однородными, V4 выбрала более жёсткий прорыв: возможности продуктивного кода. По словам людей, близких к DeepSeek, возможности генерации и обработки кода V4 напрямую превзошли серию Claude от Anthropic и GPT от OpenAI по внутренним тестированиям.
Что ещё важнее, V4 пытается решить главную проблему в современном программировании ИИ: обработку «ультрадлинных кодовых подсказок». Это значит, что V4 — это уже не просто ассистент, который помогает написать несколько строк скриптов, он стремится понимать сложные программные проекты и работать с большими кодовыми базами. Для достижения этого V4 улучшил процесс обучения, чтобы модель не испытывала снижения производительности при обработке огромных шаблонов данных.
Ключевая технология: Энграм
Более примечательной, чем сама модель V4, является недавно опубликованная DeepSeek совместно с командой из Пекинского университета. Эта статья раскрывает настоящий козырь, который DeepSeek может продолжать пробиваться при ограниченной вычислительной мощности — новую технологию под названием «Engram».
Пока конкуренты лихорадочно копят память в стеке видеокарт H100, DeepSeek вновь выбрала необычный путь. Технология Engram позволяет модели эффективно обращаться к базовой информации, не тратя вычислительные ресурсы каждый раз. Ценные вычислительные мощности, сэкономленные, используются специально для работы с более сложными рассуждениями на высоком уровне.
Исследователи утверждают, что эта технология может обойти ограничения видеопамяти и поддерживать модель радикального расширения параметров. В условиях всё более ограниченных ресурсов видеокарт прорыв DeepSeek показывает, что они никогда не возлагали надежды исключительно на оборудование.
Возможность релиза в период Весеннего фестиваля
Стало известно, что DeepSeek планирует выпустить новое поколение флагманской модели V4 примерно к Китайскому Новому году. Прошлогодний R1 также вышел в это же время и привлёк мировой фурор во время праздника Весеннего фестиваля. Такой выбор времени позволяет избежать обычного периода перегрузки выпусков в европейских и американских технологических кругах, а также полностью использует психологию ранних пользователей во время долгих каникул.
Вопреки здравому смыслу, это высший здравый смысл
Эволюция DeepSeek в этом году по сути заключается в решении здравых проблем в индустрии ИИ так, что это противоречит здравому смыслу.
Он приносит 5 миллиардов в год и может быть использован для обучения тысяч DeepSeek R1, но не слепо выпускает вычислительные мощности и видеокарты, и не появляется из новостей о том, что хочет выйти на биржу или финансировать, а начинает изучать, как заменить дорогую HBM на дешёвую память. За последний год компания практически полностью отказалась от конкуренции по трафику среди универсальных моделей, сосредоточившись на каждом улучшении моделей вывода в контексте одного крупного обновления в месяц и одного небольшого изменения в неделю со стороны всех производителей моделей.
В краткосрочной перспективе эти выборы «неправильны». Как можно конкурировать с OpenAI за ресурсы без финансирования? Как удержать пользователей без мультимодальных универсальных приложений? Закон масштаба ещё не сработал, и вычислительная мощность не накопилась, как создать самую сильную модель?
Но если временная шкала растянута, эти «неправильные» решения могут прокладывать путь к V4 DeepSeek и следующему этапу. Это цвет фона DeepSeek: когда все собирают ресурсы, это повышает эффективность; Пока все гонятся за коммерциализацией, она гонится за пределами технологий.
Когда индустрия спрашивает: «почему бы не roll», DeepSeek доказывает ответ результатами за год — антироллинг иногда бывает самым разумным выбором.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
DeepSeek год борьбы против "перегиба": почему именно стойкость привела к победе
Пока все в Силиконовой долине стремительно приезжают, есть лаборатория, которая делает наоборот. Ровно год назад (20 января 2025 года) родился DeepSeek R1, который разрушил миф о высоких порогов отрасли чрезвычайно эффективным и недорогим способом. Оглядываясь назад, я понимаю, что это не просто выпуск модели, а скорее переосмысление всех правил соревнований по искусственному интеллекту. Но ещё интереснее то, что когда этот «отставший человек» должен был быть забыт, мир меняется из-за этого.
Почему DeepSeek — это противоположность в «войне роллов» Силиконовой долины
За последний год ключевым словом для глобального ИИ было одно слово: объём.
Объемное финансирование через OpenAI, объёмные инвестиции в Microsoft, оценка объемов Anthropic — даже Маск не может устоять перед соблазном капитала, только что привлёк 20 миллиардов долларов для xAI. Все гиганты подвергаются принуждению капитала в обмен на прибыль через коммерциализацию. Но в этой гонке, где все стремятся монетизировать, DeepSeek выбрал путь «нуля внешнего финансирования».
В чём заключается уверенность в этом?
Будучи материнской компанией DeepSeek, Magic Square Quant достигла очень высокой доходности в 53% в прошлом году, с прибылью более 700 миллионов долларов США (около 5 миллиардов юаней). Лян Вэньфэн использовал эти старые деньги для прямой поддержки новой мечты «DeepSeek AGI». Эта модель даёт DeepSeek чрезвычайно роскошный контроль над деньгами — без диктовки со стороны руководства, без болезней крупной компании, только ответственность за технологии.
По сравнению с лабораториями, получившими значительное финансирование, преимущества DeepSeek очевидны. Многие финансисты оказались в тщеславии и внутренних конфликтах бумажного богатства, например, недавние частые уходы сотрудников из Thinking Machine Lab или Meta AI Lab Сяо Чжа. Но DeepSeek не нужно спешить запускать универсальное приложение ради хороших финансовых отчётов, а также не нужно внедрять мультимодальность под горячие точки рынка.
Среди конкурирующих продуктов, которые хотят писать универсальный, мультимодальный и AI-поиск на лице, DeepSeek по-прежнему поддерживает минималистичный пакет установки на 51,7 МБ, не гоняется за горячими точками, не привлекает внимания к рекламе и сосредоточен на каждом улучшении модели рассуждения. На первый взгляд, это «отставание». Но на самом деле модели DeepSeek по-прежнему остаются первым выбором для большинства платформ.
Когда мир «катится», DeepSeek повышает эффективность
Суть в том, что DeepSeek переписывает правила всего конкурса по искусственному интеллекту.
Если год назад конкуренция всё ещё была выше, чем чьи параметры были больше, то появление DeepSeek резко изменило этот конкурс на то, кто эффективнее и у кого дешевле. В недавнем обзоре OpenAI и её внутренняя команда признали, что выпуск DeepSeek R1 вызвал «большой толчок» в гонке ИИ того времени и даже был описан как «сейсмический шок».
Согласно анализу ICIS Intelligence Services, DeepSeek полностью ломает «детерминизм вычислительной мощности». Это показало миру, что даже при ограниченном количестве чипов и крайне ограниченных затратах модели всё равно можно обучать с производительностью, сопоставимой с топовыми системами США. Это напрямую привело к глобальной гонке ИИ — от «создания самой умной модели» к «кто сможет сделать модель более эффективной, дешевле и проще в развертывании».
В недавно опубликованном «Глобальном отчете о внедрении ИИ 2025» Microsoft назвала рост DeepSeek «одним из самых неожиданных достижений». Отчёт выявляет явление: DeepSeek не только захватил внутренний рынок (89% доли рынка), но и укоренился в Африке, Беларуси, Кубе и других труднодоступных регионах для американских технологических гигантов. В Африке использование DeepSeek в 2–4 раза выше, чем в других регионах. Благодаря своей свободной стратегии и функциям открытого исходного кода, она устраняет дорогие платы за подписку и пороговые платежи по кредитным картам.
Microsoft также вынуждена признать, что следующие миллиардные пользователи ИИ могут прийти не из традиционных технологических центров, а из тех регионов, охваченных DeepSeek.
Европа: от реактивного принятия к активным инновациям
Влияние DeepSeek распространилось по всему миру.
Европа всегда пассивно использовала американский ИИ, и хотя у неё есть собственная модель Mistral, она оставалась вялой. Успех DeepSeek открыл новый путь для европейцев: если китайские лаборатории с ограниченными ресурсами могут это сделать, почему Европа не может?
По данным журнала Wired, европейское технологическое сообщество запускает гонку по «созданию европейской версии DeepSeek». Многие европейские разработчики начали создавать крупные модели с открытым исходным кодом, среди которых проект SOOFI ясно дал понять, что «мы станем DeepSeek Европы». Влияние DeepSeek также усилило тревогу Европы по поводу «суверенитета ИИ» — они начинают понимать, что чрезмерная зависимость от американских закрытых моделей является риском, и эффективная открытая модель DeepSeek — именно тот ориентир, который им нужен.
Hugging Face, крупнейшее в мире сообщество открытого исходного кода, занимающееся искусственным интеллектом, также опубликовало обзор влияния года выхода R1, и основная мысль в том, что «китайский искусственный интеллект действительно выдержал себя». Они считают, что появление R1 стало переломным моментом, доказывающим, что даже при ограниченной вычислительной мощности открытый исходный код способен обогнать технические уголки. По их мнению, настоящая ценность R1 заключается в снижении планки:
Технически: Раскрывайте детали рассуждения, чтобы продвинутые способности можно было использовать повторно. Применение: Расслабленный протокол (MIT) позволяет быстро интегрировать модель в коммерческую реализацию. Психологически: Это укрепило доверие китайского ИИ от «следующего» до «ведущего».
Сейчас количество загрузок открытых моделей Китая в 2026 году доминирует в мире. Не только крупные отечественные производители и стартапы полностью принимают открытый исходный код, но даже многие новые зарубежные модели фактически основаны на китайской модели открытого исходного кода.
V4: Вторая глава войны против «объема»
Если R1 — это демонстрация от DeepSeek для индустрии ИИ, станет ли грядущий V4 ещё одной операцией, противостоящей здравому смыслу?
Согласно недавним техническим открытиям и официальному коду, существует несколько ключевых моментов V4, на которые стоит обратить внимание:
Новая модель MODEL1 была раскрыта
В официальной кодовой базе DeepSeek на GitHub случайно была обнаружена совершенно новая подсказка с кодовым названием «MODEL1». В логической структуре кода MODEL1 представлен как отдельная ветвь наряду с V32 (то есть DeepSeek-V3.2). Это означает, что MODEL1 не использует конфигурацию параметров или инфраструктуру серии V3, а представляет собой новый и независимый технический путь.
Код показывает, что он использует совершенно иную стратегию раскладки KV Cache по сравнению с текущей моделью и вводит новый механизм обработки разрежённости. На пути декодирования FP8 проводится множество целенаправленных корректировок оптимизации памяти, что указывает на то, что новая модель может обладать лучшей производительностью по эффективности вывода и заполненности памяти.
В отрасли обычно предполагается, что две недавние успешные работы DeepSeek, «mHC» по оптимизации остаточных связей, и «Engram», модуль памяти на базе искусственного интеллекта, с большой вероятностью будут интегрированы в архитектуру MODEL1.
Основные компетенции: генерация кода и ультра-длинный контекст
Сегодня, когда общие обсуждения стали однородными, V4 выбрала более жёсткий прорыв: возможности продуктивного кода. По словам людей, близких к DeepSeek, возможности генерации и обработки кода V4 напрямую превзошли серию Claude от Anthropic и GPT от OpenAI по внутренним тестированиям.
Что ещё важнее, V4 пытается решить главную проблему в современном программировании ИИ: обработку «ультрадлинных кодовых подсказок». Это значит, что V4 — это уже не просто ассистент, который помогает написать несколько строк скриптов, он стремится понимать сложные программные проекты и работать с большими кодовыми базами. Для достижения этого V4 улучшил процесс обучения, чтобы модель не испытывала снижения производительности при обработке огромных шаблонов данных.
Ключевая технология: Энграм
Более примечательной, чем сама модель V4, является недавно опубликованная DeepSeek совместно с командой из Пекинского университета. Эта статья раскрывает настоящий козырь, который DeepSeek может продолжать пробиваться при ограниченной вычислительной мощности — новую технологию под названием «Engram».
Пока конкуренты лихорадочно копят память в стеке видеокарт H100, DeepSeek вновь выбрала необычный путь. Технология Engram позволяет модели эффективно обращаться к базовой информации, не тратя вычислительные ресурсы каждый раз. Ценные вычислительные мощности, сэкономленные, используются специально для работы с более сложными рассуждениями на высоком уровне.
Исследователи утверждают, что эта технология может обойти ограничения видеопамяти и поддерживать модель радикального расширения параметров. В условиях всё более ограниченных ресурсов видеокарт прорыв DeepSeek показывает, что они никогда не возлагали надежды исключительно на оборудование.
Возможность релиза в период Весеннего фестиваля
Стало известно, что DeepSeek планирует выпустить новое поколение флагманской модели V4 примерно к Китайскому Новому году. Прошлогодний R1 также вышел в это же время и привлёк мировой фурор во время праздника Весеннего фестиваля. Такой выбор времени позволяет избежать обычного периода перегрузки выпусков в европейских и американских технологических кругах, а также полностью использует психологию ранних пользователей во время долгих каникул.
Вопреки здравому смыслу, это высший здравый смысл
Эволюция DeepSeek в этом году по сути заключается в решении здравых проблем в индустрии ИИ так, что это противоречит здравому смыслу.
Он приносит 5 миллиардов в год и может быть использован для обучения тысяч DeepSeek R1, но не слепо выпускает вычислительные мощности и видеокарты, и не появляется из новостей о том, что хочет выйти на биржу или финансировать, а начинает изучать, как заменить дорогую HBM на дешёвую память. За последний год компания практически полностью отказалась от конкуренции по трафику среди универсальных моделей, сосредоточившись на каждом улучшении моделей вывода в контексте одного крупного обновления в месяц и одного небольшого изменения в неделю со стороны всех производителей моделей.
В краткосрочной перспективе эти выборы «неправильны». Как можно конкурировать с OpenAI за ресурсы без финансирования? Как удержать пользователей без мультимодальных универсальных приложений? Закон масштаба ещё не сработал, и вычислительная мощность не накопилась, как создать самую сильную модель?
Но если временная шкала растянута, эти «неправильные» решения могут прокладывать путь к V4 DeepSeek и следующему этапу. Это цвет фона DeepSeek: когда все собирают ресурсы, это повышает эффективность; Пока все гонятся за коммерциализацией, она гонится за пределами технологий.
Когда индустрия спрашивает: «почему бы не roll», DeepSeek доказывает ответ результатами за год — антироллинг иногда бывает самым разумным выбором.