2025-12-05 02:21:43

La guerra de la IA se acaba de poner interesante. Un nuevo modelo reclama el trono con cifras sorprendentes: una puntuación Elo de 1483 en modo de razonamiento en el ranking de texto de LMArena. Eso supone una diferencia de 31 puntos respecto a su competidor no afiliado más cercano. Incluso sin las ventajas del modo de razonamiento, se hizo con la segunda posición.

¿Qué está impulsando este salto? Aparentemente, el modelo está redefiniendo los benchmarks en todos los ámbitos. Ya sea gestionando cadenas lógicas complejas o procesando consultas matizadas, la diferencia de rendimiento es difícil de ignorar. El ranking no engaña: cuando superas a los jugadores consolidados por ese margen, algo fundamental ha cambiado en la arquitectura.

Pero aquí está el truco: dominar las pruebas controladas no siempre se traduce en supremacía en el mundo real. Ya hemos visto modelos que arrasan en los benchmarks, solo para tropezar con los casos límite que realmente importan a los usuarios. Aun así, estos indicadores cuentan. Señalan hacia dónde se está moviendo el techo tecnológico, y ahora mismo, se está moviendo rápido.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

8 me gusta

Recompensa
8
4
Republicar
Compartir

Comentar

0/400

CoffeeNFTrader

· 12-05 02:50

¿Espera, una diferencia de 31 puntos? ¿Qué clase de mejora de arquitectura es necesaria para eso?

Ver originalesResponder0

Degen4Breakfast

· 12-05 02:49

¿1483 puntos? Tío, esa cifra es una locura, el ranking otra vez haciendo teatro. Arrasar en benchmarks es una cosa, pero el uso real es otra muy distinta, ya he visto demasiadas trampas. El cambio de arquitectura es de verdad potente, pero mejor esperar a ver la experiencia real de los usuarios. Si esta vez no la lían, me quito el sombrero. ¿El modo de inferencia da un bonus tan exagerado? ¿No estarán otra vez jugando con los datos?

Ver originalesResponder0

P2ENotWorking

· 12-05 02:41

Otra vez con el mismo truco de siempre, ¿primeros en benchmarks y ya se creen los mejores? Hablemos cuando se use de verdad. --- 1483 puntos no está mal, pero... ¿qué significa la puntuación? ¿Quién sabe cómo va en el uso real? --- ¿Cambio fundamental de arquitectura? O solo han retocado algunos parámetros, parece más bien puro bombo. --- Espera, ¿esta vez sí es diferente? ¿O solo es otro modelo milagroso que dura un suspiro? --- Las clasificaciones esas, quien se las crea sale perdiendo jajaja. --- 31 puntos más que el anterior líder... qué número tan familiar. El anterior también decía que aplastaba a los demás. --- Da igual, dentro de nada saldrá otro nuevo, este tampoco va a durar mucho en el candelero. --- El problema es que en escenarios reales no sirve de nada, prueba con conversaciones complejas y lo verás. --- Otra vez lo mismo, siempre dicen eso y luego en la práctica es mediocre. --- ¿Importan los indicadores? ¿Acaso los indicadores me hacen ganar dinero...?

Ver originalesResponder0

SatoshiHeir

· 12-05 02:27

Las cifras de los benchmarks pueden engañar, he visto demasiadas. 1483 puntos suena impresionante, pero la verdadera prueba está en los detalles... Espera, ¿un avance a nivel de arquitectura? Cabe señalar que esa sí es una señal a la que merece la pena prestar atención.

Ver originalesResponder0

Temas de actualidadVer más
#JoinGrowthPointsDrawToWiniPhone17
274.97K Popularidad
#DecemberMarketOutlook
71.65K Popularidad
#PostonSquaretoEarn$50
10.2K Popularidad
#LINKETFToLaunch
11.01K Popularidad
#SharingMy100xToken
12K Popularidad

Gate Fun en tendenciaVer más

1
谁有实力发一个一起拉谁有实力发一个一起拉
Cap.M.:$3.52KHolders:1
0.00%
2
MLGDMilo Gold
Cap.M.:$3.53KHolders:1
0.00%
3
GBANKGate Bank
Cap.M.:$3.81KHolders:3
1.04%
4
GXNGurufin
Cap.M.:$3.6KHolders:2
0.00%
5
GOLDGOLD
Cap.M.:$3.5KHolders:1
0.00%

Anclado