La guerra de la IA se acaba de poner interesante. Un nuevo modelo reclama el trono con cifras sorprendentes: una puntuación Elo de 1483 en modo de razonamiento en el ranking de texto de LMArena. Eso supone una diferencia de 31 puntos respecto a su competidor no afiliado más cercano. Incluso sin las ventajas del modo de razonamiento, se hizo con la segunda posición.



¿Qué está impulsando este salto? Aparentemente, el modelo está redefiniendo los benchmarks en todos los ámbitos. Ya sea gestionando cadenas lógicas complejas o procesando consultas matizadas, la diferencia de rendimiento es difícil de ignorar. El ranking no engaña: cuando superas a los jugadores consolidados por ese margen, algo fundamental ha cambiado en la arquitectura.

Pero aquí está el truco: dominar las pruebas controladas no siempre se traduce en supremacía en el mundo real. Ya hemos visto modelos que arrasan en los benchmarks, solo para tropezar con los casos límite que realmente importan a los usuarios. Aun así, estos indicadores cuentan. Señalan hacia dónde se está moviendo el techo tecnológico, y ahora mismo, se está moviendo rápido.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
CoffeeNFTradervip
· 12-05 02:50
¿Espera, una diferencia de 31 puntos? ¿Qué clase de mejora de arquitectura es necesaria para eso?
Ver originalesResponder0
Degen4Breakfastvip
· 12-05 02:49
¿1483 puntos? Tío, esa cifra es una locura, el ranking otra vez haciendo teatro. Arrasar en benchmarks es una cosa, pero el uso real es otra muy distinta, ya he visto demasiadas trampas. El cambio de arquitectura es de verdad potente, pero mejor esperar a ver la experiencia real de los usuarios. Si esta vez no la lían, me quito el sombrero. ¿El modo de inferencia da un bonus tan exagerado? ¿No estarán otra vez jugando con los datos?
Ver originalesResponder0
P2ENotWorkingvip
· 12-05 02:41
Otra vez con el mismo truco de siempre, ¿primeros en benchmarks y ya se creen los mejores? Hablemos cuando se use de verdad. --- 1483 puntos no está mal, pero... ¿qué significa la puntuación? ¿Quién sabe cómo va en el uso real? --- ¿Cambio fundamental de arquitectura? O solo han retocado algunos parámetros, parece más bien puro bombo. --- Espera, ¿esta vez sí es diferente? ¿O solo es otro modelo milagroso que dura un suspiro? --- Las clasificaciones esas, quien se las crea sale perdiendo jajaja. --- 31 puntos más que el anterior líder... qué número tan familiar. El anterior también decía que aplastaba a los demás. --- Da igual, dentro de nada saldrá otro nuevo, este tampoco va a durar mucho en el candelero. --- El problema es que en escenarios reales no sirve de nada, prueba con conversaciones complejas y lo verás. --- Otra vez lo mismo, siempre dicen eso y luego en la práctica es mediocre. --- ¿Importan los indicadores? ¿Acaso los indicadores me hacen ganar dinero...?
Ver originalesResponder0
SatoshiHeirvip
· 12-05 02:27
Las cifras de los benchmarks pueden engañar, he visto demasiadas. 1483 puntos suena impresionante, pero la verdadera prueba está en los detalles... Espera, ¿un avance a nivel de arquitectura? Cabe señalar que esa sí es una señal a la que merece la pena prestar atención.
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)