Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos RWA
Qual é o relatório que deixou até Musk impressionado?
A Moonshot AI (equipa do Kimi) lançou recentemente um relatório técnico explosivo: "Attention Residuals", que atualiza directamente as conexões residuais (Residual Connections) usadas há quase 10 anos no Transformer. O resultado é que até Elon Musk não resistiu e deixou um comentário, sentindo-se impressionado (nível de choque "unbelievable").
O núcleo deste resumido numa frase:
"Deixem de fazer cada camada somar ingenuamente todas as informações das camadas anteriores com pesos iguais. Deixem o modelo aprender a usar atenção para escolher quais sinais das camadas iniciais realmente têm utilidade!"
No Transformer tradicional (estrutura PreNorm), a saída de cada camada é:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Simples e bruto: independentemente de as informações das 100 camadas anteriores serem úteis ou não, tudo é adicionado de uma vez. Com camadas mais profundas, os sinais importantes das camadas iniciais são diluídos rapidamente pelas inúmeras camadas posteriores (chamam este fenómeno de PreNorm dilution ou representational dilution).
A equipa do Kimi substituiu directamente este sinal "+" por uma atenção leve entre camadas (depth-wise attention):
A nova fórmula parece assim (versão simplificada):
x_l = Attention( Q=x_l^{pre}, K=resumo de todas as camadas anteriores, V=valores correspondentes ) + outras coisas
A implementação mais prática que chamam de Block AttnRes: a cada poucas camadas (por exemplo, 8-16 camadas) fazem um resumo de key/value, depois usam atenção para seleccionar estes resumos, em vez de calcular atenção em cada camada. Desta forma, o aumento de memória e computação é mínimo (latência de inferência <2%), mas o desempenho é impressionante.
Os seus resultados experimentais (usando a sua série de modelos Kimi Linear, 48B total / 3B activo):
• Sob FLOPs iguais, ganho de desempenho equivalente a uma vantagem de computação de 1,25 vezes
• Melhoria óbvia em inferência de sequências longas e tarefas de raciocínio multietapas complexas
• A magnitude (norma) do estado oculto é mais estável, não explodindo ou atenuando-se como as conexões residuais tradicionais com maior profundidade
• Propagação de gradiente mais uniforme, camadas profundas mais fáceis de treinar
⚠️⚠️
Qual é a razão para a forte reação de Musk?
"Conexões residuais descansaram por oito anos, finalmente alguém se atreve a modificá-las, e ainda de forma tão elegante, com resultados tão bons?!"
Por que isto merece atenção? Porque as conexões residuais são praticamente o único "fio condutor de salvação" que permitiu ao Transformer treinar até 100+ camadas, ou mesmo milhares de camadas. Todos sentiam que já era óptimo e não podia ser melhorado. O resultado é que o Kimi, usando o mecanismo de atenção mais familiar, resolveu os problemas das próprias conexões residuais, equivalente a levar o conceito "atenção é tudo o que você precisa" para um novo patamar.
Agora já existem implementações em Rust (baseadas no framework burn), vários gráficos de explicação visual a proliferar no X, e há quem diga que esta é, após o mHC da DeepSeek, outra inovação arquitectónica verdadeiramente viável para a próxima geração de modelos de código aberto/fechado.
Se trabalha com grandes modelos, treina seu próprio LLM, este relatório vale a pena ser lido no original durante a noite + código (já aberto no GitHub).
Relatório:
Prepare-se para ficar impressionado 🚀