O工具 de execução de modelo de IA local Ollama, anunciado publicamente na plataforma X em 24/4, declarou que o modelo V4-Flash, lançado no dia anterior pela nova empresa de IA chinesa DeepSeek, será incorporado ao serviço Ollama Cloud. O host de inferência fica nos EUA e oferece três conjuntos de comandos de um clique para que desenvolvedores conectem diretamente o V4-Flash a fluxos de trabalho de desenvolvimento de programas de IA amplamente usados, como Claude Code, OpenClaw e Hermes.
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) 24 de abril de 2026
Prévia DeepSeek V4: duas opções de tamanho, contexto de 1M
De acordo com o comunicado publicado pela documentação oficial da API da DeepSeek em 24/4, a DeepSeek-V4 Preview foi lançada em código aberto em duas opções de tamanho, simultaneamente:
Modelo Parâmetros totais Parâmetros ativos Direcionamento DeepSeek-V4-Pro 1,6 trilhão 490 bilhões Mirando a principal flagship fechada DeepSeek-V4-Flash 2.840 bilhões 130 bilhões Rápido, eficiente e de baixo custo
Ambos adotam a arquitetura Mixture-of-Experts (MoE), com suporte nativo a contextos longos de 1 milhão de tokens. A DeepSeek declarou no comunicado: “O contexto de 1M agora é o valor padrão de todos os serviços oficiais da DeepSeek.”
Inovação de arquitetura: DSA atenção esparsa + compressão por token
As principais melhorias de arquitetura da série V4 incluem:
Compressão por token combinada com DSA (DeepSeek Sparse Attention) — reduz significativamente o custo das operações de inferência e do cache de memória KV em contextos extremamente longos
Em comparação com a V3.2, no cenário de contexto de 1 milhão de tokens, o V4-Pro precisa apenas de 27% dos FLOPs para inferência por token, e o cache KV requer apenas 10%
Suporte à alternância em dois modos, Thinking e Non-Thinking, para atender às necessidades de raciocínio profundo de diferentes tarefas
No nível de API, compatível simultaneamente com as especificações OpenAI ChatCompletions e Anthropic APIs, reduzindo o custo de migração para clientes existentes de Claude/GPT.
Três comandos de um clique para iniciar no Ollama Cloud
A página oficial do modelo no Ollama, com o identificador do modelo deepseek-v4-flash:cloud, fornece um serviço de inferência em nuvem. Os desenvolvedores podem usar os seguintes três conjuntos de comandos para conectar diretamente o V4-Flash aos fluxos de trabalho existentes de desenvolvimento de programas de IA:
Workflow Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Vale prestar atenção ao sinal de “host nos EUA”. Para empresas e desenvolvedores do Ocidente/EUA, a maior preocupação ao usar modelos de código aberto chineses é o reenvio de dados para a China; o Ollama escolhe colocar a camada de inferência do V4-Flash nos EUA, o que significa que o prompt e o conteúdo do código não saem da jurisdição dos EUA, reduzindo o atrito nos aspectos de conformidade e soberania de dados.
Por que isso é importante para a indústria de IA
Ao conectar DeepSeek V4-Flash, Ollama Cloud e Claude Code, que antes eram ecossistemas independentes, são gerados três significados em camadas:
Rota de custos: os 130 bilhões de parâmetros ativos do V4-Flash são bem menores do que o GPT-5.5 (entrada de US$ 5, saída de US$ 30 por milhão de tokens) e flags flagship como o Claude Opus 4.7; para tarefas de agentes de médio e pequeno porte, resumos em lote, automação de testes, etc., o custo unitário tende a cair significativamente
Camada intermediária de risco geográfico: como o Ollama é uma camada intermediária de inferência registrada nos EUA, ele permite que usuários corporativos de modelos nativos chineses contornem a preocupação de “enviar diretamente os dados para os servidores de Pequim da DeepSeek”; essa é uma solução prática para a expansão internacional de modelos de código aberto
Alternância imediata para desenvolvedores: usuários do Claude Code e do OpenClaw conseguem trocar o modelo em uma única linha na linha de comando, sem precisar alterar a estrutura do prompt nem as configurações da IDE; para cenários como “testes de regressão com múltiplos modelos” e “tarefas em lote sensíveis a custo”, isso libera uma produtividade realmente prática
A ligação com as notícias anteriores da DeepSeek
Esta divulgação do V4 com integração rápida ao Ollama Cloud ocorre no contexto de a DeepSeek estar em negociações da primeira rodada de financiamento externo e com uma avaliação de 20 bilhões de dólares. O V4 é uma prova-chave do produto no processo de capitalização da empresa DeepSeek; uma estratégia de código aberto + parceria de hospedagem internacional para rápida difusão é, na prática, a “batalha de velocidade” antes de estabelecer uma monopolização do ecossistema de desenvolvedores. Para a OpenAI e a Anthropic, um modelo substituto aberto que pode ser alternado em uma única linha dentro do Claude Code é uma nova variável na disputa de poder de condução dos fluxos de trabalho de agentes.
Este artigo “DeepSeek V4-Flash sobe no Ollama Cloud, host nos EUA: Claude Code, OpenClaw conecta em um clique” apareceu primeiro em 鏈新聞 ABMedia.
Related Articles
O vice-presidente sênior de aprendizado profundo da NVIDIA acredita que os gastos com computação de IA superam os custos de folha de pagamento humana
Plataforma Financeira de IA Rogo Capta $160M na Série D Liderada pela Kleiner Perkins em Menos de 3 Meses
China Bloqueia Aquisição de Manus por IA Apoiados pela Meta em 29 de abril, Citando Preocupações com Segurança de Tecnologia e Dados
Alibaba Cloud reduz o preço do cache implícito do DeepSeek-V4-Pro para 1 yuan por milhão de tokens em 29 de abril