DeepSeek V4-Flash entra no Ollama Cloud, servidor nos EUA: Claude Code, OpenClaw conectados em um clique

O工具 de execução de modelo de IA local Ollama, anunciado publicamente na plataforma X em 24/4, declarou que o modelo V4-Flash, lançado no dia anterior pela nova empresa de IA chinesa DeepSeek, será incorporado ao serviço Ollama Cloud. O host de inferência fica nos EUA e oferece três conjuntos de comandos de um clique para que desenvolvedores conectem diretamente o V4-Flash a fluxos de trabalho de desenvolvimento de programas de IA amplamente usados, como Claude Code, OpenClaw e Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) 24 de abril de 2026

Prévia DeepSeek V4: duas opções de tamanho, contexto de 1M

De acordo com o comunicado publicado pela documentação oficial da API da DeepSeek em 24/4, a DeepSeek-V4 Preview foi lançada em código aberto em duas opções de tamanho, simultaneamente:

Modelo Parâmetros totais Parâmetros ativos Direcionamento DeepSeek-V4-Pro 1,6 trilhão 490 bilhões Mirando a principal flagship fechada DeepSeek-V4-Flash 2.840 bilhões 130 bilhões Rápido, eficiente e de baixo custo

Ambos adotam a arquitetura Mixture-of-Experts (MoE), com suporte nativo a contextos longos de 1 milhão de tokens. A DeepSeek declarou no comunicado: “O contexto de 1M agora é o valor padrão de todos os serviços oficiais da DeepSeek.”

Inovação de arquitetura: DSA atenção esparsa + compressão por token

As principais melhorias de arquitetura da série V4 incluem:

Compressão por token combinada com DSA (DeepSeek Sparse Attention) — reduz significativamente o custo das operações de inferência e do cache de memória KV em contextos extremamente longos

Em comparação com a V3.2, no cenário de contexto de 1 milhão de tokens, o V4-Pro precisa apenas de 27% dos FLOPs para inferência por token, e o cache KV requer apenas 10%

Suporte à alternância em dois modos, Thinking e Non-Thinking, para atender às necessidades de raciocínio profundo de diferentes tarefas

No nível de API, compatível simultaneamente com as especificações OpenAI ChatCompletions e Anthropic APIs, reduzindo o custo de migração para clientes existentes de Claude/GPT.

Três comandos de um clique para iniciar no Ollama Cloud

A página oficial do modelo no Ollama, com o identificador do modelo deepseek-v4-flash:cloud, fornece um serviço de inferência em nuvem. Os desenvolvedores podem usar os seguintes três conjuntos de comandos para conectar diretamente o V4-Flash aos fluxos de trabalho existentes de desenvolvimento de programas de IA:

Workflow Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Vale prestar atenção ao sinal de “host nos EUA”. Para empresas e desenvolvedores do Ocidente/EUA, a maior preocupação ao usar modelos de código aberto chineses é o reenvio de dados para a China; o Ollama escolhe colocar a camada de inferência do V4-Flash nos EUA, o que significa que o prompt e o conteúdo do código não saem da jurisdição dos EUA, reduzindo o atrito nos aspectos de conformidade e soberania de dados.

Por que isso é importante para a indústria de IA

Ao conectar DeepSeek V4-Flash, Ollama Cloud e Claude Code, que antes eram ecossistemas independentes, são gerados três significados em camadas:

Rota de custos: os 130 bilhões de parâmetros ativos do V4-Flash são bem menores do que o GPT-5.5 (entrada de US$ 5, saída de US$ 30 por milhão de tokens) e flags flagship como o Claude Opus 4.7; para tarefas de agentes de médio e pequeno porte, resumos em lote, automação de testes, etc., o custo unitário tende a cair significativamente

Camada intermediária de risco geográfico: como o Ollama é uma camada intermediária de inferência registrada nos EUA, ele permite que usuários corporativos de modelos nativos chineses contornem a preocupação de “enviar diretamente os dados para os servidores de Pequim da DeepSeek”; essa é uma solução prática para a expansão internacional de modelos de código aberto

Alternância imediata para desenvolvedores: usuários do Claude Code e do OpenClaw conseguem trocar o modelo em uma única linha na linha de comando, sem precisar alterar a estrutura do prompt nem as configurações da IDE; para cenários como “testes de regressão com múltiplos modelos” e “tarefas em lote sensíveis a custo”, isso libera uma produtividade realmente prática

A ligação com as notícias anteriores da DeepSeek

Esta divulgação do V4 com integração rápida ao Ollama Cloud ocorre no contexto de a DeepSeek estar em negociações da primeira rodada de financiamento externo e com uma avaliação de 20 bilhões de dólares. O V4 é uma prova-chave do produto no processo de capitalização da empresa DeepSeek; uma estratégia de código aberto + parceria de hospedagem internacional para rápida difusão é, na prática, a “batalha de velocidade” antes de estabelecer uma monopolização do ecossistema de desenvolvedores. Para a OpenAI e a Anthropic, um modelo substituto aberto que pode ser alternado em uma única linha dentro do Claude Code é uma nova variável na disputa de poder de condução dos fluxos de trabalho de agentes.

Este artigo “DeepSeek V4-Flash sobe no Ollama Cloud, host nos EUA: Claude Code, OpenClaw conecta em um clique” apareceu primeiro em 鏈新聞 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O vice-presidente sênior de aprendizado profundo da NVIDIA acredita que os gastos com computação de IA superam os custos de folha de pagamento humana

O vice-presidente de aprendizado profundo da Nvidia disse que manter os custos de computação dos modelos de IA é muito maior do que os salários da mão de obra, sugerindo que, na prática, a IA talvez nem sempre reduza os custos trabalhistas. Um estudo de 2024 do MIT aponta que a automação por IA é economicamente vantajosa em cerca de 23% dos empregos, enquanto os outros 77% ainda dependem principalmente de mão de obra. As grandes gigantes globais de tecnologia continuam investindo alto em infraestrutura de IA; pressões financeiras de curto prazo e ondas de demissões coexistem; mas se, por meio de uma escala maior de estabilização e custos de supervisão menores, ainda houver a possibilidade de reduzir custos e obter ganhos econômicos a longo prazo.

ChainNewsAbmedia3m atrás

Plataforma Financeira de IA Rogo Capta $160M na Série D Liderada pela Kleiner Perkins em Menos de 3 Meses

De acordo com Beating, a plataforma de IA Rogo, projetada para cenários financeiros de alta frequência, concluiu uma rodada de financiamento de $160 milhões Série D em abril de 2026, liderada pela Kleiner Perkins com participação da Sequoia, Thrive Capital, Khosla Ventures e J.P. Morgan. O aporte aconteceu menos de três meses

GateNews6h atrás

China Bloqueia Aquisição de Manus por IA Apoiados pela Meta em 29 de abril, Citando Preocupações com Segurança de Tecnologia e Dados

De acordo com a PANews, em 29 de abril, o escritório de análise de segurança de investimentos da Comissão Nacional de Desenvolvimento e Reforma da China baniu uma aquisição estrangeira do projeto Manus e exigiu que a transação fosse encerrada. Manus, anunciado como o primeiro agente de inteligência artificial geral do mundo, tinha

GateNews7h atrás

Alibaba Cloud reduz o preço do cache implícito do DeepSeek-V4-Pro para 1 yuan por milhão de tokens em 29 de abril

De acordo com a Alibaba Cloud, sua plataforma Bailian reduzirá o preço do cache implícito do modelo DeepSeek-V4-Pro (Implicit Cache) para 1 yuan por milhão de tokens, a partir de 29 de abril de 2026 às 23:59:59, horário de Pequim. O cache implícito só se aplica quando as solicitações atingem o cache; os tokens de entrada em cache são cobrados na taxa cached_token, enquanto os tokens de entrada sem cache são cobrados nas taxas padrão de input_token. O ajuste afeta apenas o preço do cache implícito; as taxas de inferência do modelo base permanecem inalteradas.

GateNews8h atrás
Comentário
0/400
Sem comentários