En 2019, Richard Sutton, el “padre del aprendizaje por refuerzo” de la IA, escribió un artículo de seis páginas que más tarde influyó en toda la comunidad de inteligencia artificial.
El artículo, titulado “Lecciones amargas”, tiene solo una frase en su núcleo:
Los humanos han pasado décadas forzando el conocimiento del dominio en la IA, solo para perder ante “dejar que la máquina intente cometer errores por sí sola” cada vez.
Este es el caso del ajedrez, Go, reconocimiento de voz y visión por ordenador. Esos conocimientos previos cuidadosamente diseñados, las características artificiales y las reglas de expertos acaban siendo pisoteados por la computación a gran escala y el autojuego.
Sutton es una reconocida fundadora del campo del aprendizaje por refuerzo. Pasó la mitad de su vida estudiando una cosa:
La inteligencia no está diseñada, está forzada por el entorno. La interacción continua de los agentes con el entorno es el único camino fiable hacia techos de inteligencia más altos.
Tras la publicación del artículo, la reacción de la comunidad académica fue casi polarizada. Un grupo de investigadores que ha trabajado durante muchos años en ingeniería de características y sistemas expertos se ve obligado a reexaminar la importancia a largo plazo de su trabajo. La controversia no ha disminuido hasta hoy, pero el juicio de Sutton ha sido verificado repetidamente durante los siguientes siete años.
Mirando atrás a los siete años de la ola de Agentes a principios de 2026, este juicio se está cumpliendo de forma inesperada en la industria de la IA, pero la mayoría de la gente aún no se ha dado cuenta.
Hablar de Agente, solo la mitad de la conversación
Desde la fiebre de Skill liderada por Claude hasta la colaboración en Cowork y la “fiebre de la cría de gambas” que hoy en día está en todas partes, Agente se ha convertido en la palabra más popular en la industria de la IA actualmente.
Sin embargo, ante las crecientes capacidades de Agent, el tema en el que la industria se centra tanto ya no se limita a la cuestión de “qué se puede hacer”, sino a la continua apertura de permisos y la ecología cada vez más rica del plug-in, la amplitud de su alcance de aplicación y cómo remodelará las relaciones de producción y impulsará cambios en la estructura económica.
Desde cada rueda de prensa, cada revisión de producto hasta cada tuit del sector, el núcleo de la pregunta se convierte en: ¿Qué tipo de gran reorganización empresarial traerán los Agentes con mayor autonomía y autoridad de sistema a la capa de aplicación, y qué industrias y vínculos serán destruidos por la ola de Agentes?
Incluso ha habido advertencias y predicciones más agudas en la industria: a medida que el alcance de la sustitución de agentes continúa ampliándose y la profundidad de la sustitución se profundiza, se acumulan riesgos como la desaparición de empleos a gran escala, la intensificación de la diferenciación de ingresos y la disminución de la demanda efectiva, lo que puede conducir a problemas estructurales de empleo y riesgos económicos en cadenas.
Estas narrativas son valiosas y todas plantean el mismo tipo de preguntas:Como herramienta, ¿hacia dónde irá Agent en la transformación de la sociedad humana a nivel de aplicación?
Pero parece que pocas personas se hacen otra pregunta:
¿Qué cambios cualitativos traerá la popularización acelerada a gran escala de Agent a la propia IA a nivel de modelo?
Esta es la que realmente importa desde la perspectiva de Sutton.
Callejón sin salida de chatbots
Antes de entender el profundo valor de Agent, es necesario ver claramente en qué tipo de callejón sin salida se encontró su predecesor, Chatbot.
A principios de 2023, el número de usuarios de ChatGPT superó los 100 millones, estableciendo un récord de mayor crecimiento en la historia de Internet de consumo. Los gestores de producto de todo el mundo despiertan de un sueño y meten frenéticamente diálogos en sus productos. Bots de atención al cliente, respuestas de trivia, asistentes de escritura, completación de código: todo se convierte en una “interfaz de chat”.
Pero a finales de 2024, surgió un hecho embarazoso: una disminución significativa en la frecuencia de uso tras la desaparición inicial de la novedad. Varios medios de comunicación y analistas han informado sobre una desaceleración en el crecimiento de la actividad de usuarios de ChatGPT.
Los usuarios descubren que no saben qué hacer con este cuadro de diálogo y, ocasionalmente, lo usan para escribir un correo, cambiar la redacción o hacer una pregunta, pero nunca han desarrollado un hábito de uso estable.
La razón es sencilla:El modo de interacción de Chatbot es una pregunta y una respuesta, mientras que el verdadero flujo de trabajo humano es de varios pasos, múltiples herramientas y múltiples juicios.
Deja que el chatbot haga tu investigación de mercado y te dará un artículo que quede bien. Pero no sé si la fuente de datos es fiable, si pasa por alto a competidores clave y si la cadena de razonamiento detrás de la conclusión resiste un escrutinio. Aunque obtuve un resultado, perdí todo el proceso.
Lo que es aún más fatal es que cada conversación del chatbot es aislada. No recuerda las preferencias de la semana pasada, no conoce el contexto del proyecto, no entiende la lógica de negocio de la organización. Cada vez que abro el cuadro de diálogo, me reintroduzco ante una amnesia educada.
Por eso toda la industria está recurriendo colectivamente a los Agentes a partir de la segunda mitad de 2024, ya que el techo de los chatbots está claramente presente.
Pero hay una dimensión que casi todo el mundo ignora: el techo de Chatbot no es solo el techo de la forma del producto, sino también el techo de la evolución del modelo.
La interacción práctica es clave
La filosofía de Sutton sobre el aprendizaje por refuerzo tiene una lógica central muy clara: el límite superior de los datos estáticos es el límite del mundo conocido.
No importa lo grande que sea el corpus o el número de parámetros, el límite de capacidad de un modelo entrenado con un conjunto de datos fijo es el límite del mundo representado por ese lote de datos.
A los 24-25 años, esta frontera ya era visible a simple vista.
El equipo de Epoch AI ha publicado un análisis ampliamente citado que predice que los datos de texto de alta calidad en internet se verán en gran medida agotados en los próximos años al ritmo actual de consumo. La industria empezó a hablar de un “muro de datos”, un muro construido por los límites físicos de la cantidad total de información.
La respuesta que ofrece Chatbot es: de la conversación del usuario. Sin embargo, la densidad de información de las conversaciones de los usuarios con chatbots es extremadamente baja.
“Ayúdame a cambiar este correo para que sea más formal”, “Escribe un ordenamiento rápido en Python”, “¿Cuál es el PIB de China?” Estas interacciones contienen solo un mapeo superficial de las necesidades humanas.
Lo que el modelo puede aprender de estas conversaciones no es esencialmente diferente de lo que aprende al extraer un lote de textos nuevos de Internet. Todas son leyes estadísticas de los patrones del lenguaje, y todas carecen de una cosa: la estructura causal.
La diferencia entre agentes es que, en el proceso de completar tareas, un corpus estático producirá algo que nunca podrá proporcionar: la trayectoria de decisión de la estructura causal.
Por ejemplo, cuál es el objetivo, qué acciones se toman, qué retroalimentación recibe el entorno, dónde fallaron las cosas y cómo corregirlas.
Utiliza un ejemplo concreto para ilustrar la diferencia. Un usuario le dijo al chatbot: “Ayúdame a organizar un viaje de negocios de Pekín a Shanghái el próximo miércoles.” El chatbot dio directamente un plan de viaje y la interacción terminó. El modelo aprende muy poco, no sabe si el acuerdo es razonable, si el usuario está satisfecho o si su respuesta realmente resuelve el problema.
Si se pide a un agente que realice la misma tarea, seguirá un conjunto completo de flujos de trabajo autónomos: primero entenderá las necesidades de viaje del usuario, consultará sus preferencias pasadas, cambiará automáticamente a vuelos alternativos al llamar a la interfaz de vuelos y luego seleccionará los hoteles adecuados según los estándares de viaje de la empresa para generar un primer borrador del itinerario. Cuando el usuario avisa que el hotel está demasiado lejos del recinto, el agente vuelve a seleccionar los hoteles a distancia a pie, lo corrige y muestra la solución final.
Cada paso lleva una señal causal clara. El fallo de la invocación de la API indica al modelo que reserve un plan de respaldo, la preferencia del usuario le indica al modelo que recuerde los hábitos de uso, y la retroalimentación de modificaciones del usuario indica al modelo que optimice iterativamente según las necesidades.
Los chatbots solo generan respuestas, mientras que los agentes completan tareas de forma autónoma y continúan creciendo mediante prueba y error continuos y correcciones.
La densidad de información de este tipo de datos es mucho mayor que la del simple web scraping. No es un mapeo de la expresión del lenguaje humano, sino un registro del juego entre agentes y el mundo real.
Los modelos entrenados con este tipo de datos no adquieren más conocimiento, sino capacidades de razonamiento y autocorrección más sólidas, que son las variables clave que determinan el límite superior de la capacidad de los grandes modelos.
En otras palabras, el Agente es la interfaz para que los grandes modelos obtengan combustible evolutivo del mundo exterior.
Sin esta interfaz, el límite superior de las capacidades del modelo queda bloqueado en los límites de los datos estáticos.
¿Perseguir el límite superior o apilar interfaces?
Desde finales de 2024 hasta 2025, habrá una intrigante bifurcación en las decisiones estratégicas de los grandes actores de los grandes modelos.
Modelos líderes como OpenAI y Google irrumpen en la misma pared con máxima presión: persiguiendo el techo de las capacidades de los modelos.
A finales de 2024, OpenAI lanzó o3. En el benchmark ARC-AGI diseñado por François Chollet, reconocido como una prueba difícil para medir la capacidad de razonamiento abstracto, O3 logró resultados que impresionaron a toda la industria. La filosofía de diseño de ARC-AGI es precisamente anti-fuerza bruta: Chollet siempre ha insistido en que el núcleo de la inteligencia es el razonamiento abstracto y la generalización de muestras reducidas, no la búsqueda por fuerza bruta. Sin embargo, O3 utilizó cálculos de tiempo de inferencia a gran escala para lograr puntuaciones que superaban con creces a todos los sistemas previos en esta prueba.
Chollet fue cauteloso en su respuesta pública. No negó los resultados de O3, sino que señaló un hecho clave: el sistema consume mucha más computación que los humanos a la hora de resolver problemas, y una puntuación alta no equivale a un avance en inteligencia general.
Google DeepMind sigue avanzando en capacidades de razonamiento multimodal en la serie Gemini 2.0.
Pero Anthropic eligió un camino diferente. En octubre de 2024, Anthropic lanzó una función para Claude que en ese momento no parecía lo suficientemente atractiva: Uso de Ordenador, que permite a Claude operar directamente en la pantalla del ordenador. Puede ver lo que hay en pantalla, mover el ratón, pulsar botones e introducir texto.
La experiencia inicial del usuario no fue nada bueno. Claude era lento para manejar el ordenador, a menudo tardaba mucho en encontrar un botón y, de vez en cuando, hacía clic en el lugar equivocado. Los comentarios en los medios tecnológicos y las plataformas sociales suelen ser ridiculizados con buena voluntad: “Ver IA con un ordenador es como mirar a un anciano que acaba de entrar en contacto con un ordenador”.
Pero el CEO de Anthropic, Dario Amodi, ha enfatizado repetidamente un juicio en múltiples entrevistas:
El siguiente avance de los grandes modelos no radica solo en el número de parámetros, sino también en la forma en que el modelo interactúa con el mundo.
Amodei fue vicepresidente de investigación en OpenAI durante casi cinco años, experimentó el proceso de evolución de GPT-2 a GPT-3 y fundó Anthropic tras marcharse en 2021 con esta creencia.
A finales de 2024, Anthropic lanzó el protocolo abierto Model Context Protocol (MCP), que permite a los modelos de IA conectarse con herramientas y fuentes de datos externas de manera estandarizada.
Si el Uso de Ordenador le daba manos y pies, MCP le daba un conjunto común de terminaciones nerviosas que expandían exponencialmente la superficie del mundo real que podía tocar.
La narrativa principal de Claude en 2025 no es arrasar con la lista en un benchmark concreto, sino la implementación ingenieresca de capacidades del Agente, incluyendo la estabilidad de contextos largos, la fiabilidad de no perder la cadena en tareas de varios pasos y la flexibilidad de integración con herramientas externas.
Está persiguiendo un objetivo más difícil de cuantificar: trabajar de forma continua y fiable en tareas reales.
Eso no suena lo suficientemente romántico. Pero toda la teoría de Sutton te dice: este es precisamente el camino hacia un techo intelectual superior.
El trabajo es entrenamiento
Este es el fenómeno contraintuitivo más notable del último año más o menos. Cuando sus compañeros atacaban de frente el estándar de habilidad, el uso a gran escala de Claude en escenarios reales de agentes completó silenciosamente una de las predicciones de Sutton:
Sigue acumulando señales de decisión de alta calidad en interacciones del mundo real, que a su vez se convierten en el combustible para mejorar las capacidades del modelo.
El volante funciona así: los usuarios utilizan Claude para gestionar tareas reales, como automatizar datos CRM, completar aprobaciones de compras en sistemas, ajustar estrategias de marketing basadas en datos en tiempo real y realizar proyectos complejos de programación con Claude Code.
Cada éxito y fracaso es una señal; Todo flujo de trabajo de varios pasos tiene una trayectoria de decisión con una estructura causal; El resultado de cada llamada a la herramienta es decirle al modelo que “esto funciona, lo que no”.
Estas señales se desensibilizan y refinan, lo que afecta directamente a la profundidad de razonamiento y a la capacidad de autocorrección del modelo.
Por otro lado, el modo Chatbot. ¿Cuántas de las conversaciones masivas entre los usuarios y ChatGPT pueden mejorar significativamente las capacidades de razonamiento del modelo? Interacciones como “ayúdame a escribir un poema sobre el otoño”, “escribe una orden rápida en Python” y “cuántas provincias hay en China”, por miles de millones de veces que se repitan, no contienen señales para razonamiento causal. Son predicciones repetidas de patrones lingüísticos, no incrementos de inteligencia.
Esta es la diferencia fundamental entre Agente y Chatbot a nivel de evolución del modelo: el Chatbot alimenta al modelo con la “sombra del lenguaje”, y el Agente alimenta al modelo con el “hueso de la toma de decisiones”.
Esto es exactamente de lo que Sutton lleva hablando durante décadas: no intentes educar ni diseñar la inteligencia directamente, deja que crezca por sí sola en su interacción con el entorno.
OpenAI cambió
OpenAI no es ajena a este problema.
Hace mucho tiempo, continuó explorando la llamada a herramientas y la ejecución de tareas a través de una serie de funciones como Llamada de Funciones, Asistentes y GPTs.
Pero el verdadero salto llegó en enero de 2025, cuando OpenAI lanzó Operator, que puede completar tareas de forma autónoma en el navegador, seguido por Deep Research, un sistema agente que puede realizar investigaciones en varios pasos de forma autónoma, recopilar información entre sitios web y analizarla de forma exhaustiva.
El enfoque estratégico de OpenAI está claramente cambiando del “diálogo” a la “acción”. Este giro en sí mismo es una especie de alineación implícita con la lógica de Sutton:Desde un sistema que empareja patrones en datos estáticos hasta un sistema que toma decisiones y aprende en un entorno dinámico.
Pero OpenAI se enfrenta a un desafío único: la dependencia de caminos. La gran mayoría de los cientos de millones de usuarios de ChatGPT están acostumbrados a los patrones de uso de Chatbot: abrir un cuadro de diálogo, hacer una pregunta y obtener una respuesta.
Cambiar a estos usuarios de preguntas y respuestas a asignar tareas no es solo cuestión de diseño de producto, sino también de modelado mental.
Una cosa que los usuarios deben aprender es contraintuitiva:No le digas a la IA cómo hacerlo, simplemente dile lo que quieres.
Claude no tuvo desde el principio la carga de un chatbot nacional como ChatGPT. Su base de usuarios está más inclinada hacia desarrolladores y empresas, y estos usuarios son naturalmente más adaptables al modo de interacción de los agentes. El protocolo MCP de Anthropic está directamente orientado al ecosistema de desarrolladores, lo que permite a terceros construir fácilmente conexiones de herramientas para Claude.
Esto crea una sutil diferencia horaria: mientras OpenAI sigue guiando a una enorme base de usuarios de chatbot a agente, Claude ya ha acumulado una considerable cantidad de datos de interacción en el escenario del agente.
En el mundo del aprendizaje por refuerzo, la diferencia horaria lo es todo.
La ventaja de datos del primer en moverse se amplifica a través del efecto volante de inercia: mejores agentes→ más desarrolladores y usuarios utilizan → más datos de interacción → modelos más sólidos → mejores agentes.
El límite superior no se supera
Hay un patrón recurrente en la historia que merece ser tomado en serio por la industria de la IA: Deep Blue derrotó a Kasparov no porque los ingenieros codificaran manualmente todas las jugadas humanas de ajedrez, sino porque sus algoritmos de búsqueda encontraron jugadas que los humanos nunca imaginaron en evaluaciones masivas.
El verdadero avance de AlphaGo no está en la primera versión de aprender los resultados humanos de ajedrez, sino en AlphaGo Zero, una versión que depende completamente del juego en persona y no depende de ninguna puntuación de ajedrez. Empezó desde cero, redescubrió el conocimiento de Go acumulado por los humanos durante miles de años en cuestión de días, y luego lo superó.
Ninguna de las elaboraciones de grandes modelos de lenguaje para razonamiento matemático, generación de código y análisis lógico ha sido cuidadosamente diseñada.
Nadie ha escrito “por favor, aprende a resolver problemas de matemáticas” en los objetivos de entrenamiento, pero cuando el tamaño del modelo y la escala de datos alcanzan cierto punto de inflexión, estas habilidades surgen espontáneamente.
El límite superior de habilidad nunca se ha superado con un ataque frontal. Se ve expulsado en el proceso de interacción continua en un entorno suficientemente complejo.
Esto es lo que realmente significa Agent para los modelos grandes: no solo le da “manos y pies”, sino que también le da un espacio para seguir jugando con el mundo real.
La retroalimentación y los juegos en el mundo real son el motor de la evolución.
Un sistema que nunca comete errores y no puede evolucionar. Un sistema que solo responde preguntas, nunca toca el mundo real y nunca sabe dónde está su ignorancia.
El aprendizaje real solo comienza cuando el agente accede a la realidad, llama a una API, manipula un navegador, ejecuta un flujo de trabajo y luego es golpeado por la realidad.
Ecos antiguos
Un principio similar a la filosofía de Sutton sobre el aprendizaje por refuerzo fue descubierto por economistas en un campo completamente diferente hace más de medio siglo.
En 1945, Friedrich Hayek publicó un artículo en la American Economic Review titulado “El uso del conocimiento en la sociedad”, que más tarde se consideró uno de los artículos económicos más importantes del siglo XX.
Su argumento central es extremadamente simple: ninguna persona u organización puede dominar todo el conocimiento necesario para funcionar en una economía compleja. No es que no pueda entenderlo por ahora, pero**“En principio, es imposible”**。
Porque el conocimiento valioso es disperso, localizado, implícito y efímero.
Para la economía, no hay diseño general, ni plano global, ni cadena de instrucciones de arriba a abajo. Solo la interacción continua de innumerables individuos con el entorno, además de un mecanismo que transmite señales de retroalimentación.
Esta descripción, sustituyendo la economía por un agente y convirtiendo señales de precio en señales de recompensa, es el aprendizaje por refuerzo de Sutton.
En 1988, a los 89 años, Hayek publicó su último libro importante, “Fatal Conceit”.
El título en sí es un argumento. Hayek utilizó un libro entero para demostrar una cosa: la ilusión intelectual más peligrosa de los seres humanos es pensar que pueden diseñar un sistema mejor que el orden espontáneo.
Hayek sostiene que no podemos conocer de antemano todas las necesidades y todas las limitaciones de todas las personas en todo momento. Lo único que puede “saber” estas cosas es el proceso de permitir que todos interactúen, por prueba y error, y ajusten su comportamiento según señales de retroalimentación en un entorno real.
Hayek dio a este proceso un nombre: orden espontáneo, y esta filosofía es similar a la formación ambiental de Sutton.
Hayek puede decir que los planificadores encajan el conocimiento experto en el sistema económico e intentan sustituir la regulación espontánea del mercado por un diseño de primer nivel, pero cada vez pierden ante “dejar que el individuo pase por prueba y error”.
Sutton podría decir: los investigadores de IA encajan el conocimiento del dominio en algoritmos e intentan reemplazar el aprendizaje autónomo de la máquina por características artificiales, pero cada vez pierden ante “dejar que la máquina haga su propio ensayo y error”.
La fatal idea de Hayek es pensar que la razón humana ha diseñado un sistema mejor que el orden espontáneo.
La amarga lección de Sutton es que los expertos humanos pueden ser más inteligentes que búsquedas a gran escala con un simple preentrenamiento.
El conocimiento tácito de Polanyi
Si se permitiera añadir a una persona más a este diálogo que abarca el tiempo, podría ser el contemporáneo de Hayek, Michael Polanyi, un erudito nacido en Hungría.
Polanyi propuso un concepto de gran alcance en su libro de 1966 La dimensión silenciosa:
Conocimiento tácito, es decir, la gente sabe más de lo que puede decir. Las palabras originales son: “Sabemos más de lo que podemos decir.”
La gente sabe montar en bicicleta, pero no puede describir con precisión cada movimiento de equilibrio con palabras. Un médico experimentado puede saber qué falla con una sola radiografía, pero le cuesta formalizar completamente su proceso de juicio.
Este concepto impacta directamente en el principio del modelo anterior de chatbot: lo que los grandes modelos de lenguaje aprenden de los textos de Internet es solo la parte del conocimiento que los humanos pueden expresar en palabras: conocimiento explícito.
Sin embargo, existen muchas habilidades y juicios humanos en el conocimiento tácito, que solo pueden reflejarse en acciones y no pueden ser capturados en textos.
Hay muchas cosas en el proceso de toma de decisiones de un experto humano que él mismo no puede explicar: por qué elige esperar en vez de actuar en este momento, y por qué piensa que el plan “no se siente bien”. Estos juicios no aparecen en ninguna página web, en ningún libro de texto ni en ningún dato de entrenamiento de chatbots.
Pero aparecen en la trayectoria del comportamiento del Agente. Cuando un agente realiza una tarea compleja, qué hace primero y luego en la secuencia de toma de decisiones, cómo ajustar al encontrarse con obstáculos y cómo ponderar ante la incertidumbre es en sí mismo una externalización del conocimiento tácito.
No es una expresión de palabras, sino un registro de acciones. Los registros de acción, en cambio, contienen mucha más información que las expresiones verbales.
El lenguaje traducido a la IA es: La información contenida en la trayectoria de comportamiento del agente es más rica en estructura que todo el texto de Internet. Porque la primera registra acciones y consecuencias, mientras que la segunda solo registra palabras.
Validación de trayectoria
Mirando atrás a principios de 2026, la tendencia de la industria en el último año aproximadamente está proporcionando pruebas empíricas preliminares para esta batalla epistemológica.
La ruta de seguimiento de referencia ha logrado resultados notables, pero la variación entre el rendimiento marginal y el modelo de cabeza se está estrechando.
Las puntuaciones de cada modelo en el benchmark convencional se están acercando cada vez más, y la diferencia va desde la aplastante generación hasta compararte por unos pocos puntos porcentuales.
La competición por puntuaciones de referencia no ha perdido su significado, pero cada vez se está convirtiendo en una centésima de segundo en una carrera sprint, donde los espectadores no ven la diferencia y el impacto en la aplicación práctica disminuye.
La recompensa de la ruta del Agente empieza a notarse, pero de una forma menos evidente.
No hay un avance revolucionario en los benchmarks, pero sí mejora en la fiabilidad en escenarios específicos.
La tasa de finalización de tareas de varios pasos en la asistencia de programación de Claude sigue mejorando, la precisión y velocidad de las operaciones de Uso de Ordenadores se han mejorado significativamente en iteraciones, y el ecosistema de herramientas de terceros basadas en el protocolo MCP se está expandiendo.
Hace un año, DeepSeek-R1 salió del mundo, que es precisamente el capítulo más interesante de esta historia. Utiliza el aprendizaje por refuerzo, el método más defendido por Sutton, para lograr resultados sorprendentes en tareas de razonamiento a un coste muy bajo.
Esto equivale a una demostración en vivo de la filosofía de Sutton frente a la interfaz industrial: puede que no requiera la mayor cantidad de parámetros ni la mayor cantidad de anotaciones manuales, sino que solo es necesario probar y corregir el modelo a gran escala en un entorno con señales de retroalimentación claras, y la capacidad de razonamiento puede ser “forzada”.
Cabe mencionar que antes del despliegue a gran escala de agentes en el mundo físico, se “ensayaban” más modelos mediante datos sintéticos y entornos virtuales bien definidos, lo que también supone una transición hacia el ámbito real.
El éxito de DeepSeek-R1 y la lógica de la ruta agente son los mismos a nivel básico: todos utilizan las señales generadas en la interacción para impulsar la mejora de las capacidades, en lugar de depender de la acumulación de datos estáticos. La diferencia es que el primer entorno es una tarea de razonamiento bien diseñada, y el segundo es un mundo real caótico.
Por supuesto, hay que admitir que el camino de alimentar la inteligencia con experiencia está destinado a tener grandes fricciones en la realidad.
El mundo real nunca es un sandbox virtual que se puede reiniciar indefinidamente. AlphaGo cuesta casi cero perder un millón de partidas en el tablero, y DeepSeek es barato en derivación matemática.
Sin embargo, en el entorno empresarial real y los vínculos sociales, el ensayo y error de un agente puede suponer una transacción fallida, una mala experiencia del cliente e incluso riesgos financieros, legales y médicos de los que es difícil responsabilizar.
Para complicar aún más las cosas, las señales de retroalimentación en el mundo real tienden a ser muy ruidosas y retrasadas. Cuando la estrategia de un agente finalmente funciona, ¿es porque su lógica de razonamiento es impecable o es solo un viento a favor en el entorno macro?
La ambigüedad de muchas atribuciones causales objetivamente sigue planteando un gran desafío de ingeniería para que los modelos extraigan pura “experiencia válida” de ellas.
Pero esta es precisamente la “amargura” de la teoría de Sutton en la realidad actual: no importa lo alto que sea el coste del ensayo y error en el mundo real y lo ruidoso que sea el feedback, esta es la única puerta estrecha inevitable hacia la inteligencia artificial general.
Amargura deslumbrante
Sutton ha expresado más de una vez la amargura hacia los investigadores en IA en “Bitter Lessons”: las características, reglas y conocimientos previos cuidadosamente diseñados por humanos acabarán siendo superados por la búsqueda y el aprendizaje a gran escala.
Los que parecen más inteligentes suelen ir más lejos que los más “tontos” porque estos últimos son más escalables.
Mirando atrás en los últimos años, la evolución de los modelos grandes en realidad ha estado repitiendo este patrón.
Desde características manuales hasta aprendizaje profundo, desde aprendizaje supervisado hasta aprendizaje autosupervisado, desde la anotación manual hasta el aprendizaje por refuerzo, cada cambio de paradigma va en la misma dirección: reduce el diseño humano y aumenta el espacio de prueba y error del sistema en el entorno.
La aparición de Agent ha llevado este camino a una nueva etapa.
Si en el pasado los modelos aprendían principalmente en el mundo del lenguaje, entonces Agent empezó a dejar que el modelo aprendiera en el mundo de acción.
El lenguaje puede describir el mundo, pero solo las acciones tienen consecuencias; Las palabras pueden expresar conocimiento, pero solo las acciones pueden exponer la ignorancia.
Por eso los cambios que traen los Agentes parecen una expansión de las capacidades del producto a corto plazo, pero más bien un cambio en el mecanismo de generación de capacidades a largo plazo.
Un modelo que solo responde preguntas en diálogos tiene dificultades para darse cuenta de sus puntos ciegos; Un modelo que lo intentó, falló y corrigió repetidamente en tareas reales será corregido constantemente por la realidad. La retroalimentación en el mundo real es más directa y brutal que cualquier anotación manual.
En cierto sentido, el valor más importante de un agente no es dejar que la IA trabaje para las personas, sino permitir que la IA empiece a tener experiencia.
La experiencia significa la dimensión temporal, la estructura causal y el ciclo de error y corrección.
Un sistema sin experiencia puede tener conocimientos, pero es difícil formar juicios; Un sistema que siga acumulando experiencia irá formando gradualmente una estrategia a través de innumerables retroalimentaciones.
Esto también explica por qué muchos experimentos de Agente aparentemente “torpes” merecen la paciencia.
Son lentos, cometen errores ocasionales y son mucho menos eficientes que los humanos, pero esta torpeza es un requisito previo para el aprendizaje en sí mismo. Un sistema que nunca toca el entorno real parece estable pero es difícil de evolucionar; Un sistema que está siendo constantemente rechazado por la realidad, aunque imperfecto, está actualizando constantemente su propio modelo de mundo.
Mirando atrás a principios de 2026, quedan muchas diferencias.
Algunos aún están trabajando en la comparación de la altura del modelo, mientras que otros empiezan a medir la madurez del modelo con tasas de finalización de tareas. La primera proporciona coordenadas numéricas claras, mientras que la segunda se acerca más a la complejidad del mundo real.
No son contradictorias, pero la experiencia acumulada por la segunda puede tener un impacto más profundo en los límites de la inteligencia futura.
Esas incontables prácticas de agentes en el mundo real, los incontables comentarios positivos y negativos generados por la interacción, y los incontables fracasos que se están transformando en señales de mejora constituyen los datos subyacentes más reales de la evolución inteligente.
No son tan deslumbrantes como los resultados de benchmark, pero siguen alimentando las capacidades del modelo como combustible.
Si la etapa de Chatbot permite que la IA aprenda, entonces la etapa de Agente permite que la IA aprenda a vivir.
La vida significa incertidumbre, azar y complejos de causas y efectos, así como una adaptación y ajuste continuos. La inteligencia no se logrará de la noche a la mañana en un entorno así, pero poco a poco tomará forma en innumerables pequeñas retroalimentaciones.
Este puede ser el verdadero significado de la palabra “amargo”:
Reconocer que ningún diseño puede conducir al camino óptimo en un solo paso, reconociendo que el verdadero progreso proviene de un proceso largo y repetido de prueba y error.
La amargura es que los humanos deben abandonar su obsesión con el diseño perfecto; Pero la esperanza es que, una vez que el sistema esté en un entorno suficientemente rico, el crecimiento de la inteligencia tenga cierta inevitabilidad inherente.
En este sentido, la ola actual de Agentes está lejos de ser el final de la historia de los grandes modelos, sino más bien un nuevo punto de partida.
Impulsa el modelo de un contenedor de conocimiento estático a un proceso de aprendizaje continuo; Transformar capacidades de resultados de entrenamiento puntuales en subproductos de la interacción a largo plazo.
La altura de los modelos futuros puede que ya no se determine solo por el tamaño de los parámetros y el corpus, sino por cuántos intentos, fallos y correcciones hayan experimentado en el mundo real.
La puntuación que se puede medir registra la habilidad actual; Las experiencias que no pueden medirse completamente moldean las capacidades del mañana.
Advertencia de riesgo y aviso legal
El mercado es arriesgado y la inversión debe ser cautelosa. Este artículo no constituye asesoramiento personal de inversión y no tiene en cuenta los objetivos específicos de inversión, la situación financiera o las necesidades de los usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones contenidas en este artículo son coherentes con sus circunstancias específicas. Invierte en consecuencia bajo tu propio riesgo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El amargo despertar del agente: la inteligencia pasa del lenguaje a la experiencia
Autor |
En 2019, Richard Sutton, el “padre del aprendizaje por refuerzo” de la IA, escribió un artículo de seis páginas que más tarde influyó en toda la comunidad de inteligencia artificial.
El artículo, titulado “Lecciones amargas”, tiene solo una frase en su núcleo:
Los humanos han pasado décadas forzando el conocimiento del dominio en la IA, solo para perder ante “dejar que la máquina intente cometer errores por sí sola” cada vez.
Este es el caso del ajedrez, Go, reconocimiento de voz y visión por ordenador. Esos conocimientos previos cuidadosamente diseñados, las características artificiales y las reglas de expertos acaban siendo pisoteados por la computación a gran escala y el autojuego.
Sutton es una reconocida fundadora del campo del aprendizaje por refuerzo. Pasó la mitad de su vida estudiando una cosa:
La inteligencia no está diseñada, está forzada por el entorno. La interacción continua de los agentes con el entorno es el único camino fiable hacia techos de inteligencia más altos.
Tras la publicación del artículo, la reacción de la comunidad académica fue casi polarizada. Un grupo de investigadores que ha trabajado durante muchos años en ingeniería de características y sistemas expertos se ve obligado a reexaminar la importancia a largo plazo de su trabajo. La controversia no ha disminuido hasta hoy, pero el juicio de Sutton ha sido verificado repetidamente durante los siguientes siete años.
Mirando atrás a los siete años de la ola de Agentes a principios de 2026, este juicio se está cumpliendo de forma inesperada en la industria de la IA, pero la mayoría de la gente aún no se ha dado cuenta.
Hablar de Agente, solo la mitad de la conversación
Desde la fiebre de Skill liderada por Claude hasta la colaboración en Cowork y la “fiebre de la cría de gambas” que hoy en día está en todas partes, Agente se ha convertido en la palabra más popular en la industria de la IA actualmente.
Sin embargo, ante las crecientes capacidades de Agent, el tema en el que la industria se centra tanto ya no se limita a la cuestión de “qué se puede hacer”, sino a la continua apertura de permisos y la ecología cada vez más rica del plug-in, la amplitud de su alcance de aplicación y cómo remodelará las relaciones de producción y impulsará cambios en la estructura económica.
Desde cada rueda de prensa, cada revisión de producto hasta cada tuit del sector, el núcleo de la pregunta se convierte en: ¿Qué tipo de gran reorganización empresarial traerán los Agentes con mayor autonomía y autoridad de sistema a la capa de aplicación, y qué industrias y vínculos serán destruidos por la ola de Agentes?
Incluso ha habido advertencias y predicciones más agudas en la industria: a medida que el alcance de la sustitución de agentes continúa ampliándose y la profundidad de la sustitución se profundiza, se acumulan riesgos como la desaparición de empleos a gran escala, la intensificación de la diferenciación de ingresos y la disminución de la demanda efectiva, lo que puede conducir a problemas estructurales de empleo y riesgos económicos en cadenas.
Estas narrativas son valiosas y todas plantean el mismo tipo de preguntas:Como herramienta, ¿hacia dónde irá Agent en la transformación de la sociedad humana a nivel de aplicación?
Pero parece que pocas personas se hacen otra pregunta:
¿Qué cambios cualitativos traerá la popularización acelerada a gran escala de Agent a la propia IA a nivel de modelo?
Esta es la que realmente importa desde la perspectiva de Sutton.
Callejón sin salida de chatbots
Antes de entender el profundo valor de Agent, es necesario ver claramente en qué tipo de callejón sin salida se encontró su predecesor, Chatbot.
A principios de 2023, el número de usuarios de ChatGPT superó los 100 millones, estableciendo un récord de mayor crecimiento en la historia de Internet de consumo. Los gestores de producto de todo el mundo despiertan de un sueño y meten frenéticamente diálogos en sus productos. Bots de atención al cliente, respuestas de trivia, asistentes de escritura, completación de código: todo se convierte en una “interfaz de chat”.
Pero a finales de 2024, surgió un hecho embarazoso: una disminución significativa en la frecuencia de uso tras la desaparición inicial de la novedad. Varios medios de comunicación y analistas han informado sobre una desaceleración en el crecimiento de la actividad de usuarios de ChatGPT.
Los usuarios descubren que no saben qué hacer con este cuadro de diálogo y, ocasionalmente, lo usan para escribir un correo, cambiar la redacción o hacer una pregunta, pero nunca han desarrollado un hábito de uso estable.
La razón es sencilla:El modo de interacción de Chatbot es una pregunta y una respuesta, mientras que el verdadero flujo de trabajo humano es de varios pasos, múltiples herramientas y múltiples juicios.
Deja que el chatbot haga tu investigación de mercado y te dará un artículo que quede bien. Pero no sé si la fuente de datos es fiable, si pasa por alto a competidores clave y si la cadena de razonamiento detrás de la conclusión resiste un escrutinio. Aunque obtuve un resultado, perdí todo el proceso.
Lo que es aún más fatal es que cada conversación del chatbot es aislada. No recuerda las preferencias de la semana pasada, no conoce el contexto del proyecto, no entiende la lógica de negocio de la organización. Cada vez que abro el cuadro de diálogo, me reintroduzco ante una amnesia educada.
Por eso toda la industria está recurriendo colectivamente a los Agentes a partir de la segunda mitad de 2024, ya que el techo de los chatbots está claramente presente.
Pero hay una dimensión que casi todo el mundo ignora: el techo de Chatbot no es solo el techo de la forma del producto, sino también el techo de la evolución del modelo.
La interacción práctica es clave
La filosofía de Sutton sobre el aprendizaje por refuerzo tiene una lógica central muy clara: el límite superior de los datos estáticos es el límite del mundo conocido.
No importa lo grande que sea el corpus o el número de parámetros, el límite de capacidad de un modelo entrenado con un conjunto de datos fijo es el límite del mundo representado por ese lote de datos.
A los 24-25 años, esta frontera ya era visible a simple vista.
El equipo de Epoch AI ha publicado un análisis ampliamente citado que predice que los datos de texto de alta calidad en internet se verán en gran medida agotados en los próximos años al ritmo actual de consumo. La industria empezó a hablar de un “muro de datos”, un muro construido por los límites físicos de la cantidad total de información.
La respuesta que ofrece Chatbot es: de la conversación del usuario. Sin embargo, la densidad de información de las conversaciones de los usuarios con chatbots es extremadamente baja.
“Ayúdame a cambiar este correo para que sea más formal”, “Escribe un ordenamiento rápido en Python”, “¿Cuál es el PIB de China?” Estas interacciones contienen solo un mapeo superficial de las necesidades humanas.
Lo que el modelo puede aprender de estas conversaciones no es esencialmente diferente de lo que aprende al extraer un lote de textos nuevos de Internet. Todas son leyes estadísticas de los patrones del lenguaje, y todas carecen de una cosa: la estructura causal.
La diferencia entre agentes es que, en el proceso de completar tareas, un corpus estático producirá algo que nunca podrá proporcionar: la trayectoria de decisión de la estructura causal.
Por ejemplo, cuál es el objetivo, qué acciones se toman, qué retroalimentación recibe el entorno, dónde fallaron las cosas y cómo corregirlas.
Utiliza un ejemplo concreto para ilustrar la diferencia. Un usuario le dijo al chatbot: “Ayúdame a organizar un viaje de negocios de Pekín a Shanghái el próximo miércoles.” El chatbot dio directamente un plan de viaje y la interacción terminó. El modelo aprende muy poco, no sabe si el acuerdo es razonable, si el usuario está satisfecho o si su respuesta realmente resuelve el problema.
Si se pide a un agente que realice la misma tarea, seguirá un conjunto completo de flujos de trabajo autónomos: primero entenderá las necesidades de viaje del usuario, consultará sus preferencias pasadas, cambiará automáticamente a vuelos alternativos al llamar a la interfaz de vuelos y luego seleccionará los hoteles adecuados según los estándares de viaje de la empresa para generar un primer borrador del itinerario. Cuando el usuario avisa que el hotel está demasiado lejos del recinto, el agente vuelve a seleccionar los hoteles a distancia a pie, lo corrige y muestra la solución final.
Cada paso lleva una señal causal clara. El fallo de la invocación de la API indica al modelo que reserve un plan de respaldo, la preferencia del usuario le indica al modelo que recuerde los hábitos de uso, y la retroalimentación de modificaciones del usuario indica al modelo que optimice iterativamente según las necesidades.
Los chatbots solo generan respuestas, mientras que los agentes completan tareas de forma autónoma y continúan creciendo mediante prueba y error continuos y correcciones.
La densidad de información de este tipo de datos es mucho mayor que la del simple web scraping. No es un mapeo de la expresión del lenguaje humano, sino un registro del juego entre agentes y el mundo real.
Los modelos entrenados con este tipo de datos no adquieren más conocimiento, sino capacidades de razonamiento y autocorrección más sólidas, que son las variables clave que determinan el límite superior de la capacidad de los grandes modelos.
En otras palabras, el Agente es la interfaz para que los grandes modelos obtengan combustible evolutivo del mundo exterior.
Sin esta interfaz, el límite superior de las capacidades del modelo queda bloqueado en los límites de los datos estáticos.
¿Perseguir el límite superior o apilar interfaces?
Desde finales de 2024 hasta 2025, habrá una intrigante bifurcación en las decisiones estratégicas de los grandes actores de los grandes modelos.
Modelos líderes como OpenAI y Google irrumpen en la misma pared con máxima presión: persiguiendo el techo de las capacidades de los modelos.
A finales de 2024, OpenAI lanzó o3. En el benchmark ARC-AGI diseñado por François Chollet, reconocido como una prueba difícil para medir la capacidad de razonamiento abstracto, O3 logró resultados que impresionaron a toda la industria. La filosofía de diseño de ARC-AGI es precisamente anti-fuerza bruta: Chollet siempre ha insistido en que el núcleo de la inteligencia es el razonamiento abstracto y la generalización de muestras reducidas, no la búsqueda por fuerza bruta. Sin embargo, O3 utilizó cálculos de tiempo de inferencia a gran escala para lograr puntuaciones que superaban con creces a todos los sistemas previos en esta prueba.
Chollet fue cauteloso en su respuesta pública. No negó los resultados de O3, sino que señaló un hecho clave: el sistema consume mucha más computación que los humanos a la hora de resolver problemas, y una puntuación alta no equivale a un avance en inteligencia general.
Google DeepMind sigue avanzando en capacidades de razonamiento multimodal en la serie Gemini 2.0.
Pero Anthropic eligió un camino diferente. En octubre de 2024, Anthropic lanzó una función para Claude que en ese momento no parecía lo suficientemente atractiva: Uso de Ordenador, que permite a Claude operar directamente en la pantalla del ordenador. Puede ver lo que hay en pantalla, mover el ratón, pulsar botones e introducir texto.
La experiencia inicial del usuario no fue nada bueno. Claude era lento para manejar el ordenador, a menudo tardaba mucho en encontrar un botón y, de vez en cuando, hacía clic en el lugar equivocado. Los comentarios en los medios tecnológicos y las plataformas sociales suelen ser ridiculizados con buena voluntad: “Ver IA con un ordenador es como mirar a un anciano que acaba de entrar en contacto con un ordenador”.
Pero el CEO de Anthropic, Dario Amodi, ha enfatizado repetidamente un juicio en múltiples entrevistas:
El siguiente avance de los grandes modelos no radica solo en el número de parámetros, sino también en la forma en que el modelo interactúa con el mundo.
Amodei fue vicepresidente de investigación en OpenAI durante casi cinco años, experimentó el proceso de evolución de GPT-2 a GPT-3 y fundó Anthropic tras marcharse en 2021 con esta creencia.
A finales de 2024, Anthropic lanzó el protocolo abierto Model Context Protocol (MCP), que permite a los modelos de IA conectarse con herramientas y fuentes de datos externas de manera estandarizada.
Si el Uso de Ordenador le daba manos y pies, MCP le daba un conjunto común de terminaciones nerviosas que expandían exponencialmente la superficie del mundo real que podía tocar.
La narrativa principal de Claude en 2025 no es arrasar con la lista en un benchmark concreto, sino la implementación ingenieresca de capacidades del Agente, incluyendo la estabilidad de contextos largos, la fiabilidad de no perder la cadena en tareas de varios pasos y la flexibilidad de integración con herramientas externas.
Está persiguiendo un objetivo más difícil de cuantificar: trabajar de forma continua y fiable en tareas reales.
Eso no suena lo suficientemente romántico. Pero toda la teoría de Sutton te dice: este es precisamente el camino hacia un techo intelectual superior.
El trabajo es entrenamiento
Este es el fenómeno contraintuitivo más notable del último año más o menos. Cuando sus compañeros atacaban de frente el estándar de habilidad, el uso a gran escala de Claude en escenarios reales de agentes completó silenciosamente una de las predicciones de Sutton:
Sigue acumulando señales de decisión de alta calidad en interacciones del mundo real, que a su vez se convierten en el combustible para mejorar las capacidades del modelo.
El volante funciona así: los usuarios utilizan Claude para gestionar tareas reales, como automatizar datos CRM, completar aprobaciones de compras en sistemas, ajustar estrategias de marketing basadas en datos en tiempo real y realizar proyectos complejos de programación con Claude Code.
Cada éxito y fracaso es una señal; Todo flujo de trabajo de varios pasos tiene una trayectoria de decisión con una estructura causal; El resultado de cada llamada a la herramienta es decirle al modelo que “esto funciona, lo que no”.
Estas señales se desensibilizan y refinan, lo que afecta directamente a la profundidad de razonamiento y a la capacidad de autocorrección del modelo.
Por otro lado, el modo Chatbot. ¿Cuántas de las conversaciones masivas entre los usuarios y ChatGPT pueden mejorar significativamente las capacidades de razonamiento del modelo? Interacciones como “ayúdame a escribir un poema sobre el otoño”, “escribe una orden rápida en Python” y “cuántas provincias hay en China”, por miles de millones de veces que se repitan, no contienen señales para razonamiento causal. Son predicciones repetidas de patrones lingüísticos, no incrementos de inteligencia.
Esta es la diferencia fundamental entre Agente y Chatbot a nivel de evolución del modelo: el Chatbot alimenta al modelo con la “sombra del lenguaje”, y el Agente alimenta al modelo con el “hueso de la toma de decisiones”.
Esto es exactamente de lo que Sutton lleva hablando durante décadas: no intentes educar ni diseñar la inteligencia directamente, deja que crezca por sí sola en su interacción con el entorno.
OpenAI cambió
OpenAI no es ajena a este problema.
Hace mucho tiempo, continuó explorando la llamada a herramientas y la ejecución de tareas a través de una serie de funciones como Llamada de Funciones, Asistentes y GPTs.
Pero el verdadero salto llegó en enero de 2025, cuando OpenAI lanzó Operator, que puede completar tareas de forma autónoma en el navegador, seguido por Deep Research, un sistema agente que puede realizar investigaciones en varios pasos de forma autónoma, recopilar información entre sitios web y analizarla de forma exhaustiva.
El enfoque estratégico de OpenAI está claramente cambiando del “diálogo” a la “acción”. Este giro en sí mismo es una especie de alineación implícita con la lógica de Sutton:Desde un sistema que empareja patrones en datos estáticos hasta un sistema que toma decisiones y aprende en un entorno dinámico.
Pero OpenAI se enfrenta a un desafío único: la dependencia de caminos. La gran mayoría de los cientos de millones de usuarios de ChatGPT están acostumbrados a los patrones de uso de Chatbot: abrir un cuadro de diálogo, hacer una pregunta y obtener una respuesta.
Cambiar a estos usuarios de preguntas y respuestas a asignar tareas no es solo cuestión de diseño de producto, sino también de modelado mental.
Una cosa que los usuarios deben aprender es contraintuitiva:No le digas a la IA cómo hacerlo, simplemente dile lo que quieres.
Claude no tuvo desde el principio la carga de un chatbot nacional como ChatGPT. Su base de usuarios está más inclinada hacia desarrolladores y empresas, y estos usuarios son naturalmente más adaptables al modo de interacción de los agentes. El protocolo MCP de Anthropic está directamente orientado al ecosistema de desarrolladores, lo que permite a terceros construir fácilmente conexiones de herramientas para Claude.
Esto crea una sutil diferencia horaria: mientras OpenAI sigue guiando a una enorme base de usuarios de chatbot a agente, Claude ya ha acumulado una considerable cantidad de datos de interacción en el escenario del agente.
En el mundo del aprendizaje por refuerzo, la diferencia horaria lo es todo.
La ventaja de datos del primer en moverse se amplifica a través del efecto volante de inercia: mejores agentes→ más desarrolladores y usuarios utilizan → más datos de interacción → modelos más sólidos → mejores agentes.
El límite superior no se supera
Hay un patrón recurrente en la historia que merece ser tomado en serio por la industria de la IA: Deep Blue derrotó a Kasparov no porque los ingenieros codificaran manualmente todas las jugadas humanas de ajedrez, sino porque sus algoritmos de búsqueda encontraron jugadas que los humanos nunca imaginaron en evaluaciones masivas.
El verdadero avance de AlphaGo no está en la primera versión de aprender los resultados humanos de ajedrez, sino en AlphaGo Zero, una versión que depende completamente del juego en persona y no depende de ninguna puntuación de ajedrez. Empezó desde cero, redescubrió el conocimiento de Go acumulado por los humanos durante miles de años en cuestión de días, y luego lo superó.
Ninguna de las elaboraciones de grandes modelos de lenguaje para razonamiento matemático, generación de código y análisis lógico ha sido cuidadosamente diseñada.
Nadie ha escrito “por favor, aprende a resolver problemas de matemáticas” en los objetivos de entrenamiento, pero cuando el tamaño del modelo y la escala de datos alcanzan cierto punto de inflexión, estas habilidades surgen espontáneamente.
El límite superior de habilidad nunca se ha superado con un ataque frontal. Se ve expulsado en el proceso de interacción continua en un entorno suficientemente complejo.
Esto es lo que realmente significa Agent para los modelos grandes: no solo le da “manos y pies”, sino que también le da un espacio para seguir jugando con el mundo real.
La retroalimentación y los juegos en el mundo real son el motor de la evolución.
Un sistema que nunca comete errores y no puede evolucionar. Un sistema que solo responde preguntas, nunca toca el mundo real y nunca sabe dónde está su ignorancia.
El aprendizaje real solo comienza cuando el agente accede a la realidad, llama a una API, manipula un navegador, ejecuta un flujo de trabajo y luego es golpeado por la realidad.
Ecos antiguos
Un principio similar a la filosofía de Sutton sobre el aprendizaje por refuerzo fue descubierto por economistas en un campo completamente diferente hace más de medio siglo.
En 1945, Friedrich Hayek publicó un artículo en la American Economic Review titulado “El uso del conocimiento en la sociedad”, que más tarde se consideró uno de los artículos económicos más importantes del siglo XX.
Su argumento central es extremadamente simple: ninguna persona u organización puede dominar todo el conocimiento necesario para funcionar en una economía compleja. No es que no pueda entenderlo por ahora, pero**“En principio, es imposible”**。
Porque el conocimiento valioso es disperso, localizado, implícito y efímero.
Para la economía, no hay diseño general, ni plano global, ni cadena de instrucciones de arriba a abajo. Solo la interacción continua de innumerables individuos con el entorno, además de un mecanismo que transmite señales de retroalimentación.
Esta descripción, sustituyendo la economía por un agente y convirtiendo señales de precio en señales de recompensa, es el aprendizaje por refuerzo de Sutton.
En 1988, a los 89 años, Hayek publicó su último libro importante, “Fatal Conceit”.
El título en sí es un argumento. Hayek utilizó un libro entero para demostrar una cosa: la ilusión intelectual más peligrosa de los seres humanos es pensar que pueden diseñar un sistema mejor que el orden espontáneo.
Hayek sostiene que no podemos conocer de antemano todas las necesidades y todas las limitaciones de todas las personas en todo momento. Lo único que puede “saber” estas cosas es el proceso de permitir que todos interactúen, por prueba y error, y ajusten su comportamiento según señales de retroalimentación en un entorno real.
Hayek dio a este proceso un nombre: orden espontáneo, y esta filosofía es similar a la formación ambiental de Sutton.
Hayek puede decir que los planificadores encajan el conocimiento experto en el sistema económico e intentan sustituir la regulación espontánea del mercado por un diseño de primer nivel, pero cada vez pierden ante “dejar que el individuo pase por prueba y error”.
Sutton podría decir: los investigadores de IA encajan el conocimiento del dominio en algoritmos e intentan reemplazar el aprendizaje autónomo de la máquina por características artificiales, pero cada vez pierden ante “dejar que la máquina haga su propio ensayo y error”.
La fatal idea de Hayek es pensar que la razón humana ha diseñado un sistema mejor que el orden espontáneo.
La amarga lección de Sutton es que los expertos humanos pueden ser más inteligentes que búsquedas a gran escala con un simple preentrenamiento.
El conocimiento tácito de Polanyi
Si se permitiera añadir a una persona más a este diálogo que abarca el tiempo, podría ser el contemporáneo de Hayek, Michael Polanyi, un erudito nacido en Hungría.
Polanyi propuso un concepto de gran alcance en su libro de 1966 La dimensión silenciosa:
Conocimiento tácito, es decir, la gente sabe más de lo que puede decir. Las palabras originales son: “Sabemos más de lo que podemos decir.”
La gente sabe montar en bicicleta, pero no puede describir con precisión cada movimiento de equilibrio con palabras. Un médico experimentado puede saber qué falla con una sola radiografía, pero le cuesta formalizar completamente su proceso de juicio.
Este concepto impacta directamente en el principio del modelo anterior de chatbot: lo que los grandes modelos de lenguaje aprenden de los textos de Internet es solo la parte del conocimiento que los humanos pueden expresar en palabras: conocimiento explícito.
Sin embargo, existen muchas habilidades y juicios humanos en el conocimiento tácito, que solo pueden reflejarse en acciones y no pueden ser capturados en textos.
Hay muchas cosas en el proceso de toma de decisiones de un experto humano que él mismo no puede explicar: por qué elige esperar en vez de actuar en este momento, y por qué piensa que el plan “no se siente bien”. Estos juicios no aparecen en ninguna página web, en ningún libro de texto ni en ningún dato de entrenamiento de chatbots.
Pero aparecen en la trayectoria del comportamiento del Agente. Cuando un agente realiza una tarea compleja, qué hace primero y luego en la secuencia de toma de decisiones, cómo ajustar al encontrarse con obstáculos y cómo ponderar ante la incertidumbre es en sí mismo una externalización del conocimiento tácito.
No es una expresión de palabras, sino un registro de acciones. Los registros de acción, en cambio, contienen mucha más información que las expresiones verbales.
El lenguaje traducido a la IA es: La información contenida en la trayectoria de comportamiento del agente es más rica en estructura que todo el texto de Internet. Porque la primera registra acciones y consecuencias, mientras que la segunda solo registra palabras.
Validación de trayectoria
Mirando atrás a principios de 2026, la tendencia de la industria en el último año aproximadamente está proporcionando pruebas empíricas preliminares para esta batalla epistemológica.
La ruta de seguimiento de referencia ha logrado resultados notables, pero la variación entre el rendimiento marginal y el modelo de cabeza se está estrechando.
Las puntuaciones de cada modelo en el benchmark convencional se están acercando cada vez más, y la diferencia va desde la aplastante generación hasta compararte por unos pocos puntos porcentuales.
La competición por puntuaciones de referencia no ha perdido su significado, pero cada vez se está convirtiendo en una centésima de segundo en una carrera sprint, donde los espectadores no ven la diferencia y el impacto en la aplicación práctica disminuye.
La recompensa de la ruta del Agente empieza a notarse, pero de una forma menos evidente.
No hay un avance revolucionario en los benchmarks, pero sí mejora en la fiabilidad en escenarios específicos.
La tasa de finalización de tareas de varios pasos en la asistencia de programación de Claude sigue mejorando, la precisión y velocidad de las operaciones de Uso de Ordenadores se han mejorado significativamente en iteraciones, y el ecosistema de herramientas de terceros basadas en el protocolo MCP se está expandiendo.
Hace un año, DeepSeek-R1 salió del mundo, que es precisamente el capítulo más interesante de esta historia. Utiliza el aprendizaje por refuerzo, el método más defendido por Sutton, para lograr resultados sorprendentes en tareas de razonamiento a un coste muy bajo.
Esto equivale a una demostración en vivo de la filosofía de Sutton frente a la interfaz industrial: puede que no requiera la mayor cantidad de parámetros ni la mayor cantidad de anotaciones manuales, sino que solo es necesario probar y corregir el modelo a gran escala en un entorno con señales de retroalimentación claras, y la capacidad de razonamiento puede ser “forzada”.
Cabe mencionar que antes del despliegue a gran escala de agentes en el mundo físico, se “ensayaban” más modelos mediante datos sintéticos y entornos virtuales bien definidos, lo que también supone una transición hacia el ámbito real.
El éxito de DeepSeek-R1 y la lógica de la ruta agente son los mismos a nivel básico: todos utilizan las señales generadas en la interacción para impulsar la mejora de las capacidades, en lugar de depender de la acumulación de datos estáticos. La diferencia es que el primer entorno es una tarea de razonamiento bien diseñada, y el segundo es un mundo real caótico.
Por supuesto, hay que admitir que el camino de alimentar la inteligencia con experiencia está destinado a tener grandes fricciones en la realidad.
El mundo real nunca es un sandbox virtual que se puede reiniciar indefinidamente. AlphaGo cuesta casi cero perder un millón de partidas en el tablero, y DeepSeek es barato en derivación matemática.
Sin embargo, en el entorno empresarial real y los vínculos sociales, el ensayo y error de un agente puede suponer una transacción fallida, una mala experiencia del cliente e incluso riesgos financieros, legales y médicos de los que es difícil responsabilizar.
Para complicar aún más las cosas, las señales de retroalimentación en el mundo real tienden a ser muy ruidosas y retrasadas. Cuando la estrategia de un agente finalmente funciona, ¿es porque su lógica de razonamiento es impecable o es solo un viento a favor en el entorno macro?
La ambigüedad de muchas atribuciones causales objetivamente sigue planteando un gran desafío de ingeniería para que los modelos extraigan pura “experiencia válida” de ellas.
Pero esta es precisamente la “amargura” de la teoría de Sutton en la realidad actual: no importa lo alto que sea el coste del ensayo y error en el mundo real y lo ruidoso que sea el feedback, esta es la única puerta estrecha inevitable hacia la inteligencia artificial general.
Amargura deslumbrante
Sutton ha expresado más de una vez la amargura hacia los investigadores en IA en “Bitter Lessons”: las características, reglas y conocimientos previos cuidadosamente diseñados por humanos acabarán siendo superados por la búsqueda y el aprendizaje a gran escala.
Los que parecen más inteligentes suelen ir más lejos que los más “tontos” porque estos últimos son más escalables.
Mirando atrás en los últimos años, la evolución de los modelos grandes en realidad ha estado repitiendo este patrón.
Desde características manuales hasta aprendizaje profundo, desde aprendizaje supervisado hasta aprendizaje autosupervisado, desde la anotación manual hasta el aprendizaje por refuerzo, cada cambio de paradigma va en la misma dirección: reduce el diseño humano y aumenta el espacio de prueba y error del sistema en el entorno.
La aparición de Agent ha llevado este camino a una nueva etapa.
Si en el pasado los modelos aprendían principalmente en el mundo del lenguaje, entonces Agent empezó a dejar que el modelo aprendiera en el mundo de acción.
El lenguaje puede describir el mundo, pero solo las acciones tienen consecuencias; Las palabras pueden expresar conocimiento, pero solo las acciones pueden exponer la ignorancia.
Por eso los cambios que traen los Agentes parecen una expansión de las capacidades del producto a corto plazo, pero más bien un cambio en el mecanismo de generación de capacidades a largo plazo.
Un modelo que solo responde preguntas en diálogos tiene dificultades para darse cuenta de sus puntos ciegos; Un modelo que lo intentó, falló y corrigió repetidamente en tareas reales será corregido constantemente por la realidad. La retroalimentación en el mundo real es más directa y brutal que cualquier anotación manual.
En cierto sentido, el valor más importante de un agente no es dejar que la IA trabaje para las personas, sino permitir que la IA empiece a tener experiencia.
La experiencia significa la dimensión temporal, la estructura causal y el ciclo de error y corrección.
Un sistema sin experiencia puede tener conocimientos, pero es difícil formar juicios; Un sistema que siga acumulando experiencia irá formando gradualmente una estrategia a través de innumerables retroalimentaciones.
Esto también explica por qué muchos experimentos de Agente aparentemente “torpes” merecen la paciencia.
Son lentos, cometen errores ocasionales y son mucho menos eficientes que los humanos, pero esta torpeza es un requisito previo para el aprendizaje en sí mismo. Un sistema que nunca toca el entorno real parece estable pero es difícil de evolucionar; Un sistema que está siendo constantemente rechazado por la realidad, aunque imperfecto, está actualizando constantemente su propio modelo de mundo.
Mirando atrás a principios de 2026, quedan muchas diferencias.
Algunos aún están trabajando en la comparación de la altura del modelo, mientras que otros empiezan a medir la madurez del modelo con tasas de finalización de tareas. La primera proporciona coordenadas numéricas claras, mientras que la segunda se acerca más a la complejidad del mundo real.
No son contradictorias, pero la experiencia acumulada por la segunda puede tener un impacto más profundo en los límites de la inteligencia futura.
Esas incontables prácticas de agentes en el mundo real, los incontables comentarios positivos y negativos generados por la interacción, y los incontables fracasos que se están transformando en señales de mejora constituyen los datos subyacentes más reales de la evolución inteligente.
No son tan deslumbrantes como los resultados de benchmark, pero siguen alimentando las capacidades del modelo como combustible.
Si la etapa de Chatbot permite que la IA aprenda, entonces la etapa de Agente permite que la IA aprenda a vivir.
La vida significa incertidumbre, azar y complejos de causas y efectos, así como una adaptación y ajuste continuos. La inteligencia no se logrará de la noche a la mañana en un entorno así, pero poco a poco tomará forma en innumerables pequeñas retroalimentaciones.
Este puede ser el verdadero significado de la palabra “amargo”:
Reconocer que ningún diseño puede conducir al camino óptimo en un solo paso, reconociendo que el verdadero progreso proviene de un proceso largo y repetido de prueba y error.
La amargura es que los humanos deben abandonar su obsesión con el diseño perfecto; Pero la esperanza es que, una vez que el sistema esté en un entorno suficientemente rico, el crecimiento de la inteligencia tenga cierta inevitabilidad inherente.
En este sentido, la ola actual de Agentes está lejos de ser el final de la historia de los grandes modelos, sino más bien un nuevo punto de partida.
Impulsa el modelo de un contenedor de conocimiento estático a un proceso de aprendizaje continuo; Transformar capacidades de resultados de entrenamiento puntuales en subproductos de la interacción a largo plazo.
La altura de los modelos futuros puede que ya no se determine solo por el tamaño de los parámetros y el corpus, sino por cuántos intentos, fallos y correcciones hayan experimentado en el mundo real.
La puntuación que se puede medir registra la habilidad actual; Las experiencias que no pueden medirse completamente moldean las capacidades del mañana.
Advertencia de riesgo y aviso legal