2025-12-05 02:21:43

A guerra da IA ficou ainda mais interessante. Um novo modelo está a reclamar o trono com números impressionantes—1483 de classificação Elo no modo de raciocínio no ranking de texto do LMArena. Isso representa uma vantagem de 31 pontos em relação ao seu concorrente não-afiliado mais próximo. Mesmo sem as funcionalidades avançadas de raciocínio, conquistou o 2.º lugar.

O que está a impulsionar este salto? Ao que parece, o modelo está a reescrever os benchmarks em todas as frentes. Seja a lidar com cadeias lógicas complexas ou a processar questões subtis, a diferença de desempenho é difícil de ignorar. O ranking não engana—quando ultrapassas jogadores estabelecidos por essa margem, algo fundamental mudou na arquitetura.

Mas há uma ressalva: dominar testes controlados não significa necessariamente supremacia no mundo real. Já vimos modelos a obter resultados excelentes em benchmarks, apenas para tropeçarem nos casos-limite que realmente interessam aos utilizadores. Ainda assim, estes indicadores são importantes. Eles mostram para onde o teto tecnológico está a mover-se e, neste momento, está a avançar rapidamente.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
4
Repostar
Compartilhar

Comentário

0/400

CoffeeNFTrader

· 23h atrás

Espera, uma diferença de 31 pontos? Isso deve ser uma melhoria enorme na arquitetura.

Ver originalResponder0

Degen4Breakfast

· 23h atrás

1483 pontos? Amigo, este número é absurdo, o ranking está a inventar outra vez. Esmagar nos benchmarks é uma coisa, na prática é outra, já vi demasiados esquemas assim. A mudança de arquitetura é realmente agressiva, mas vamos esperar para ver a experiência real dos utilizadores. Se isto não der barraca, eu rendo-me. O bónus do modo de inferência é tão exagerado, será que estão a manipular os dados outra vez?

Ver originalResponder0

P2ENotWorking

· 23h atrás

Outra vez com o mesmo velho truque, ficar em primeiro nos benchmarks já acha que é imbatível? Vamos ver quando for realmente usado. --- 1483 pontos é bom, mas pontuação quer dizer o quê... Como é que funciona na prática, quem é que sabe? --- Mudança estrutural fundamental? Ou só mudaram uns parâmetros, com mais marketing do que substância. --- Espera lá, desta vez é mesmo diferente? Ou é mais um modelo milagroso que desaparece num instante? --- Esses rankings, quem acredita neles é que sai prejudicado, hahaha. --- 31 pontos acima do anterior, esse número soa-me familiar... O anterior também dizia que esmagava a concorrência. --- Deixa estar, daqui a pouco aparece outro novo, este entusiasmo também não dura muito. --- O problema é que em cenários reais não serve para nada, experimenta um diálogo mais complexo para veres. --- Lá vem outra vez, sempre dizem isto e depois na prática é só mediano. --- Indicadores são importantes? Indicadores dão-me dinheiro?...

Ver originalResponder0

SatoshiHeir

· 23h atrás

Os números dos benchmarks podem enganar, já vi isso demasiadas vezes. 1483 pontos soa impressionante, mas o verdadeiro teste está nos detalhes... Espera, um avanço a nível de arquitetura? Importa referir que este é o sinal a que devemos realmente prestar atenção.

Ver originalResponder0

TendênciasVer projetos
#JoinGrowthPointsDrawToWiniPhone17
269.77K Popularidade
#DecemberMarketOutlook
66.27K Popularidade
#PostonSquaretoEarn$50
8.61K Popularidade
#LINKETFToLaunch
8.91K Popularidade
#SharingMy100xToken
10K Popularidade

Em alta na Gate FunVer projetos

1
minerminer
Cap. de M.:$3.5KHolders:1
0.00%
2
HCGHCG
Cap. de M.:$3.51KHolders:2
0.09%
3
8888888open the door
Cap. de M.:$3.47KHolders:1
0.00%
4
GG3GG3
Cap. de M.:$3.52KHolders:2
0.00%
5
GAMEDGAMED
Cap. de M.:$3.51KHolders:1
0.00%

Marcar

sitemap