A guerra da IA ficou ainda mais interessante. Um novo modelo está a reclamar o trono com números impressionantes—1483 de classificação Elo no modo de raciocínio no ranking de texto do LMArena. Isso representa uma vantagem de 31 pontos em relação ao seu concorrente não-afiliado mais próximo. Mesmo sem as funcionalidades avançadas de raciocínio, conquistou o 2.º lugar.
O que está a impulsionar este salto? Ao que parece, o modelo está a reescrever os benchmarks em todas as frentes. Seja a lidar com cadeias lógicas complexas ou a processar questões subtis, a diferença de desempenho é difícil de ignorar. O ranking não engana—quando ultrapassas jogadores estabelecidos por essa margem, algo fundamental mudou na arquitetura.
Mas há uma ressalva: dominar testes controlados não significa necessariamente supremacia no mundo real. Já vimos modelos a obter resultados excelentes em benchmarks, apenas para tropeçarem nos casos-limite que realmente interessam aos utilizadores. Ainda assim, estes indicadores são importantes. Eles mostram para onde o teto tecnológico está a mover-se e, neste momento, está a avançar rapidamente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
4
Repostar
Compartilhar
Comentário
0/400
CoffeeNFTrader
· 12-05 02:50
Espera, uma diferença de 31 pontos? Isso deve ser uma melhoria enorme na arquitetura.
Ver originalResponder0
Degen4Breakfast
· 12-05 02:49
1483 pontos? Amigo, este número é absurdo, o ranking está a inventar outra vez.
Esmagar nos benchmarks é uma coisa, na prática é outra, já vi demasiados esquemas assim.
A mudança de arquitetura é realmente agressiva, mas vamos esperar para ver a experiência real dos utilizadores.
Se isto não der barraca, eu rendo-me.
O bónus do modo de inferência é tão exagerado, será que estão a manipular os dados outra vez?
Ver originalResponder0
P2ENotWorking
· 12-05 02:41
Outra vez com o mesmo velho truque, ficar em primeiro nos benchmarks já acha que é imbatível? Vamos ver quando for realmente usado.
---
1483 pontos é bom, mas pontuação quer dizer o quê... Como é que funciona na prática, quem é que sabe?
---
Mudança estrutural fundamental? Ou só mudaram uns parâmetros, com mais marketing do que substância.
---
Espera lá, desta vez é mesmo diferente? Ou é mais um modelo milagroso que desaparece num instante?
---
Esses rankings, quem acredita neles é que sai prejudicado, hahaha.
---
31 pontos acima do anterior, esse número soa-me familiar... O anterior também dizia que esmagava a concorrência.
---
Deixa estar, daqui a pouco aparece outro novo, este entusiasmo também não dura muito.
---
O problema é que em cenários reais não serve para nada, experimenta um diálogo mais complexo para veres.
---
Lá vem outra vez, sempre dizem isto e depois na prática é só mediano.
---
Indicadores são importantes? Indicadores dão-me dinheiro?...
Ver originalResponder0
SatoshiHeir
· 12-05 02:27
Os números dos benchmarks podem enganar, já vi isso demasiadas vezes. 1483 pontos soa impressionante, mas o verdadeiro teste está nos detalhes...
Espera, um avanço a nível de arquitetura? Importa referir que este é o sinal a que devemos realmente prestar atenção.
A guerra da IA ficou ainda mais interessante. Um novo modelo está a reclamar o trono com números impressionantes—1483 de classificação Elo no modo de raciocínio no ranking de texto do LMArena. Isso representa uma vantagem de 31 pontos em relação ao seu concorrente não-afiliado mais próximo. Mesmo sem as funcionalidades avançadas de raciocínio, conquistou o 2.º lugar.
O que está a impulsionar este salto? Ao que parece, o modelo está a reescrever os benchmarks em todas as frentes. Seja a lidar com cadeias lógicas complexas ou a processar questões subtis, a diferença de desempenho é difícil de ignorar. O ranking não engana—quando ultrapassas jogadores estabelecidos por essa margem, algo fundamental mudou na arquitetura.
Mas há uma ressalva: dominar testes controlados não significa necessariamente supremacia no mundo real. Já vimos modelos a obter resultados excelentes em benchmarks, apenas para tropeçarem nos casos-limite que realmente interessam aos utilizadores. Ainda assim, estes indicadores são importantes. Eles mostram para onde o teto tecnológico está a mover-se e, neste momento, está a avançar rapidamente.