Fuente original: AIGC Open Community
Fuente de la imagen: Generado por Unbounded AI
Los grandes modelos lingüísticos como ChatGPT demuestran capacidades creativas sin precedentes, pero aún están lejos de la AGI (Inteligencia Artificial General) y carecen de capacidades antropomórficas como la toma de decisiones autónomas, el almacenamiento de memoria y la planificación.
Con el fin de explorar la evolución de los grandes modelos de lenguaje a AGI y evolucionar hacia una súper inteligencia artificial que supere a los humanos, Mihayou y el equipo de investigación de PNL de Fudan publicaron conjuntamente un artículo de “agente” basado en grandes modelos de lenguaje. Poner agentes con las tres funciones de percepción, cerebro y acción en entornos experimentales como juegos de texto y sandbox para que se muevan por sí mismos.
Los resultados muestran que estos agentes tienen capacidades antropomórficas como la percepción, la planificación, la toma de decisiones y la comunicación autónomas, por ejemplo, cuando el entorno circundante se vuelve difícil y arduo, los agentes ajustarán automáticamente sus estrategias y acciones; En un entorno de simulación social, el agente exhibe emociones antropomórficas como la empatía; Cuando dos agentes extraños se comunican simplemente, se recuerdan.
Este marco técnico es similar a los experimentos de simulación de juegos de agentes de IA lanzados por la Universidad de Stanford y la Universidad de Tsinghua anteriormente, que se basan en grandes modelos de lenguaje para construir robots de IA más potentes, lo que ha desempeñado un papel en la promoción del desarrollo de la industria.
Dirección del papel:
Github:
De acuerdo con el documento, el agente se compone principalmente de tres módulos: percepción, toma de decisiones y control, y ejecución, que percibe el entorno, toma decisiones inteligentes y luego realiza acciones específicas.
El módulo de percepción se utiliza para obtener diversa información del entorno, equivalente a los sentidos humanos. Puede contener una variedad de sensores para obtener diferentes tipos de datos, por ejemplo, la cámara obtiene información de imagen, el micrófono obtiene información de voz, etc.
El módulo de percepción preprocesa estos datos en bruto y los convierte en una representación digital que el agente puede entender para los módulos posteriores. Los sensores de percepción más utilizados son:
Sensores de imagen: cámaras, cámaras RGB-D, etc., utilizados para obtener información visual.
Sensor de sonido: micrófono, obtener información de audio como voz y sonido ambiental.
Sensores de posición: GPS, INS (sistema de navegación inercial), etc., para conocer la posición del propio agente.
Sensores táctiles: Haptic ARRAY, guantes táctiles, etc., para obtener retroalimentación táctil cuando los objetos entran en contacto.
Sensores de temperatura, humedad, presión atmosférica y otros sensores ambientales para obtener información de parámetros ambientales.
El módulo de percepción necesita preprocesar los datos sin procesar, por ejemplo, eliminación de ruido de imagen, reducción de ruido de sonido, conversión de formato, etc., para generar datos normalizados que puedan ser utilizados por módulos posteriores. Al mismo tiempo, el módulo de percepción también puede realizar la extracción de características, como la extracción de características visuales como bordes, texturas y áreas de destino de las imágenes.
Este módulo es el “cerebro” del agente, procesando, analizando y tomando las decisiones correspondientes sobre los datos obtenidos por el módulo de percepción. Se puede subdividir en los siguientes submódulos:
Base de conocimiento/memoria: almacena todo tipo de conocimientos previos, experiencias, así como observaciones, experiencias y otra información durante la ejecución.
Razonamiento/planificación: Analizar el entorno actual y desarrollar un curso de acción de acuerdo con la tarea objetivo. Por ejemplo, la planificación de rutas, la planificación de secuencias de acciones, etc.
Toma de decisiones: Tomar decisiones óptimas basadas en el estado actual del entorno, el conocimiento y los resultados del razonamiento.
Control: Convierta el resultado de la decisión en instrucciones de control y emita comandos de ejecución en el módulo de ejecución.
El diseño del módulo de decisión y control es la clave de la tecnología de agentes. Con el uso temprano de la lógica y los métodos simbólicos basados en reglas, las técnicas de aprendizaje profundo se han convertido en la corriente principal en los últimos años. La entrada del módulo son los diversos tipos de datos obtenidos por percepción, y la salida es la instrucción de control del módulo de ejecución.
## Módulo de ejecución
El módulo de ejecución recibe instrucciones de control y las traduce en comportamientos específicos de interacción ambiental para lograr la tarea correspondiente. Es equivalente a las “extremidades” de una persona. El actuador se conecta al “efector” del agente e impulsa al efector para cambiar el entorno de acuerdo con el comando de control. Los principales efectores incluyen:
Actuadores de movimiento: brazos robóticos, chasis de robots, etc., para cambiar la posición del propio agente o realizar operaciones con objetos.
Salida de voz/texto: Sintetizadores de voz, pantallas, etc. para interactuar con el entorno en voz o texto.
Interfaz de operación de herramientas / equipos: controle varios dispositivos y herramientas, y amplíe la capacidad de operación ambiental del agente.
El diseño específico del módulo de ejecución está relacionado con la forma física del agente. Por ejemplo, un agente de servicio solo necesita una interfaz de texto o voz, mientras que un robot necesita conectarse y controlar con precisión la cinemática. La precisión y la resiliencia de la ejecución son clave para el éxito de la misión.
En el experimento de prueba, los investigadores llevaron a cabo principalmente tres tipos de experimentos: tarea, innovación y gestión del ciclo de vida para observar el rendimiento del agente en diferentes entornos.
Los investigadores construyeron dos entornos de simulación, juegos de texto y escenarios de vida, para probar la capacidad de los agentes para completar las tareas diarias. Los entornos de juego de texto utilizan el lenguaje natural para describir el mundo virtual, y los agentes necesitan leer las descripciones de texto para percibir su entorno y actuar.
Las simulaciones de escenas de la vida son más realistas y complejas, y los agentes deben utilizar el conocimiento del sentido común para comprender mejor los comandos, como encender activamente las luces cuando la habitación está oscura.
Los resultados experimentales muestran que los agentes pueden usar sus poderosas capacidades de generación de comprensión de texto para descomponer de manera efectiva tareas complejas, hacer planes e interactuar con entornos que cambian dinámicamente en estos entornos simulados para, en última instancia, lograr objetivos predeterminados.
Los investigadores exploraron el potencial de los agentes en campos especializados como la innovación científica. Debido a los desafíos de la escasez de datos y la dificultad para comprender el conocimiento especializado del dominio en estos campos, los investigadores probaron soluciones para equipar a los agentes con varias herramientas generales o especializadas para mejorar su comprensión del conocimiento del dominio complejo.
Los experimentos muestran que el agente puede utilizar motores de búsqueda, gráficos de conocimiento y otras herramientas para realizar investigaciones en línea, e interactuar con instrumentos y equipos científicos para completar operaciones prácticas como la síntesis de materiales. Esto lo convierte en un prometedor asistente para la innovación científica.
Los investigadores utilizaron el juego de mundo abierto Minecraft para probar la capacidad del agente para aprender y sobrevivir continuamente. Los agentes comienzan con las actividades más básicas, como la extracción de madera y la fabricación de bancos de trabajo, explorando gradualmente entornos desconocidos y adquiriendo habilidades de supervivencia más complejas.
En el experimento, el cuerpo inteligente se utiliza para la planificación de alto nivel y puede ajustar continuamente la estrategia de acuerdo con la retroalimentación del entorno**. Los resultados muestran que el agente puede desarrollar habilidades con total autonomía, adaptarse continuamente a nuevos entornos y demostrar fuertes capacidades de gestión del ciclo de vida.
Además, en términos de simulación social, los investigadores exploraron si los agentes exhiben personalidad y comportamiento social, y probaron diferentes entornos ambientales. Los resultados muestran que los agentes pueden exhibir ciertos niveles de habilidades cognitivas, emociones y rasgos de personalidad. En una sociedad simulada, las actividades sociales espontáneas y el comportamiento grupal ocurren entre los agentes.