opinión impopular: los lanzamientos de modelos de IA se están volviendo aburridos.


no porque los modelos no estén mejorando.. lo están.
pero cada lanzamiento es solo.. benchmarks.
@OpenAI acaba de lanzar GPT-5.4 y todo el anuncio es básicamente esta tabla.
75% en OSWorld. 57.7% en SWE-Bench Pro. 94.4% en GPQA Diamond.
genial.. pero ¿qué significa eso para mí que estoy construyendo cosas a las 2 de la mañana?
nadie fuera de AI twitter se preocupa por una mejora del 2% en MMLU. nadie. cero personas.
¿la parte más divertida? mira la tabla de cerca..
> Opus 4.6 está a un paso en casi todos los benchmarks.
> Gemini 3.1 Pro silenciosamente superando a todos en BrowseComp con un 85.9%.
el "ganador" cambia dependiendo de qué fila mires.
¿sabes qué quiero ver en realidad?
muéstrame la tarea del mundo real desordenada que maneja mejor que antes. muéstrame la demo que me rompe un poco el cerebro. muéstrame a alguien construyendo algo con eso que no era posible el mes pasado.
el mejor benchmark es "¿esto hizo mi vida más fácil?"
eso es todo. esa es toda la evaluación.
las empresas aquí celebrando las puntuaciones en matemáticas mientras los usuarios solo quieren saber si finalmente puede manejar una base de código de 4K líneas sin romper la mitad de las funciones.
empieza por ahí.
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado