🚨 ANTHROPIC ESTABLECE UNA NUEVA LÍNEA BASE CON CLAUDE OPUS 4.7


Este es un paso medible hacia adelante en el rendimiento agentico.
64.3% en SWE-bench, frente al 53.4%
87.6% en codificación agentica verificada
77.3% en uso de herramientas escaladas
78.0% en tareas informáticas del mundo real
También mejora donde los modelos suelen degradarse:
79.3% en búsqueda agentica
64.4% en análisis financiero
91.5% en preguntas y respuestas multilingües
Y de manera crítica, el razonamiento de contexto largo se mantiene:
Más del 90% en razonamiento visual con herramientas
94.2% en pruebas a nivel de posgrado
AQUÍ ESTÁ LA CONCLUSIÓN:
Esto no se trata de puntajes máximos.
Se trata de consistencia en todos los dominios.
Opus 4.7 no domina todas las categorías.
Pero funciona de manera confiable en todas ellas.
Eso es lo que necesitan los sistemas de producción.
La frontera ya no es solo la inteligencia.
Es la estabilidad bajo cargas de trabajo reales.
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado