A guerra da IA ficou ainda mais interessante. Um novo modelo está a reclamar o trono com números impressionantes—1483 de classificação Elo no modo de raciocínio no ranking de texto do LMArena. Isso representa uma vantagem de 31 pontos em relação ao seu concorrente não-afiliado mais próximo. Mesmo sem as funcionalidades avançadas de raciocínio, conquistou o 2.º lugar.



O que está a impulsionar este salto? Ao que parece, o modelo está a reescrever os benchmarks em todas as frentes. Seja a lidar com cadeias lógicas complexas ou a processar questões subtis, a diferença de desempenho é difícil de ignorar. O ranking não engana—quando ultrapassas jogadores estabelecidos por essa margem, algo fundamental mudou na arquitetura.

Mas há uma ressalva: dominar testes controlados não significa necessariamente supremacia no mundo real. Já vimos modelos a obter resultados excelentes em benchmarks, apenas para tropeçarem nos casos-limite que realmente interessam aos utilizadores. Ainda assim, estes indicadores são importantes. Eles mostram para onde o teto tecnológico está a mover-se e, neste momento, está a avançar rapidamente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
CoffeeNFTradervip
· 23h atrás
Espera, uma diferença de 31 pontos? Isso deve ser uma melhoria enorme na arquitetura.
Ver originalResponder0
Degen4Breakfastvip
· 23h atrás
1483 pontos? Amigo, este número é absurdo, o ranking está a inventar outra vez. Esmagar nos benchmarks é uma coisa, na prática é outra, já vi demasiados esquemas assim. A mudança de arquitetura é realmente agressiva, mas vamos esperar para ver a experiência real dos utilizadores. Se isto não der barraca, eu rendo-me. O bónus do modo de inferência é tão exagerado, será que estão a manipular os dados outra vez?
Ver originalResponder0
P2ENotWorkingvip
· 23h atrás
Outra vez com o mesmo velho truque, ficar em primeiro nos benchmarks já acha que é imbatível? Vamos ver quando for realmente usado. --- 1483 pontos é bom, mas pontuação quer dizer o quê... Como é que funciona na prática, quem é que sabe? --- Mudança estrutural fundamental? Ou só mudaram uns parâmetros, com mais marketing do que substância. --- Espera lá, desta vez é mesmo diferente? Ou é mais um modelo milagroso que desaparece num instante? --- Esses rankings, quem acredita neles é que sai prejudicado, hahaha. --- 31 pontos acima do anterior, esse número soa-me familiar... O anterior também dizia que esmagava a concorrência. --- Deixa estar, daqui a pouco aparece outro novo, este entusiasmo também não dura muito. --- O problema é que em cenários reais não serve para nada, experimenta um diálogo mais complexo para veres. --- Lá vem outra vez, sempre dizem isto e depois na prática é só mediano. --- Indicadores são importantes? Indicadores dão-me dinheiro?...
Ver originalResponder0
SatoshiHeirvip
· 23h atrás
Os números dos benchmarks podem enganar, já vi isso demasiadas vezes. 1483 pontos soa impressionante, mas o verdadeiro teste está nos detalhes... Espera, um avanço a nível de arquitetura? Importa referir que este é o sinal a que devemos realmente prestar atenção.
Ver originalResponder0
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)