Các mô hình ngôn ngữ lớn như ChatGPT thể hiện khả năng sáng tạo chưa từng có, nhưng chúng vẫn còn xa AGI (Trí tuệ nhân tạo nói chung) và thiếu khả năng nhân hóa như ra quyết định tự trị, lưu trữ bộ nhớ và lập kế hoạch.

Để khám phá sự phát triển của các mô hình ngôn ngữ lớn thành AGI và phát triển thành siêu trí tuệ nhân tạo vượt qua con người, Mihayou và nhóm nghiên cứu Fudan NLP đã cùng nhau phát hành một bài báo “tác nhân” dựa trên các mô hình ngôn ngữ lớn. ** Đặt các tác nhân với ba chức năng nhận thức, não và hành động trong môi trường thử nghiệm như trò chơi văn bản và hộp cát để cho phép chúng tự di chuyển **.

Kết quả cho thấy các tác nhân này có khả năng nhân hóa như nhận thức tự chủ, lập kế hoạch, ra quyết định và giao tiếp, ví dụ, khi môi trường xung quanh trở nên khó khăn và gian khổ, các tác nhân sẽ tự động điều chỉnh chiến lược và hành động của mình; Trong môi trường mô phỏng xã hội, tác nhân thể hiện những cảm xúc được nhân hóa như sự đồng cảm; Khi hai đặc vụ lạ giao tiếp đơn giản, họ nhớ nhau.

Khung kỹ thuật này tương tự như các thí nghiệm mô phỏng trò chơi tác nhân AI do Đại học Stanford và Đại học Thanh Hoa phát hành trước đây, dựa trên các mô hình ngôn ngữ lớn để chế tạo robot AI mạnh mẽ hơn, đóng vai trò thúc đẩy sự phát triển của ngành.

Địa chỉ giấy:

Github:

Theo bài báo, tác nhân chủ yếu bao gồm ba mô-đun: nhận thức, ra quyết định và kiểm soát, và thực thi, nhận thức môi trường, đưa ra quyết định thông minh và sau đó thực hiện các hành động cụ thể.

Mô-đun nhận thức

Mô-đun nhận thức được sử dụng để thu thập thông tin khác nhau từ môi trường, tương đương với các giác quan của con người. Nó có thể chứa nhiều loại cảm biến để thu được các loại dữ liệu khác nhau, ví dụ: máy ảnh thu được thông tin hình ảnh, micrô thu được thông tin giọng nói, v.v.

Mô-đun nhận thức xử lý trước dữ liệu thô này và chuyển đổi nó thành một biểu diễn kỹ thuật số mà tác nhân có thể hiểu cho các mô-đun tiếp theo. Cảm biến nhận thức thường được sử dụng bao gồm:

Cảm biến hình ảnh: máy ảnh, máy ảnh RGB-D, v.v., được sử dụng để thu thập thông tin hình ảnh.

Cảm biến âm thanh: micrô, nhận thông tin âm thanh như giọng nói và âm thanh xung quanh.

Cảm biến vị trí: GPS, INS (hệ thống định vị quán tính), v.v., để biết vị trí của chính tác nhân.

Cảm biến xúc giác: Haptic Array, găng tay xúc giác, v.v., để thu được phản hồi xúc giác khi các vật thể tiếp xúc.

Nhiệt độ, độ ẩm, áp suất không khí và các cảm biến môi trường khác để có được thông tin thông số môi trường.

Mô-đun nhận thức cần xử lý trước dữ liệu thô, ví dụ: khử nhiễu hình ảnh, giảm nhiễu âm thanh, chuyển đổi định dạng, v.v., để tạo dữ liệu chuẩn hóa có thể được sử dụng bởi các mô-đun tiếp theo. Đồng thời, mô-đun nhận thức cũng có thể thực hiện trích xuất tính năng, chẳng hạn như trích xuất các tính năng trực quan như cạnh, kết cấu và khu vực mục tiêu từ hình ảnh.

Mô-đun quyết định và kiểm soát **

Mô-đun này là “bộ não” của tác nhân, xử lý, phân tích và đưa ra quyết định tương ứng về dữ liệu thu được từ mô-đun nhận thức. Nó có thể được chia thành các mô-đun con sau:

Cơ sở kiến thức / bộ nhớ: lưu trữ tất cả các loại kiến thức, kinh nghiệm trước đó, cũng như các quan sát, kinh nghiệm và thông tin khác trong quá trình thực hiện.

Lý luận / lập kế hoạch: Phân tích môi trường hiện tại và phát triển một quá trình hành động theo nhiệm vụ mục tiêu. Chẳng hạn như lập kế hoạch đường dẫn, lập kế hoạch chuỗi hành động, v.v.

Ra quyết định: Đưa ra quyết định tối ưu dựa trên hiện trạng môi trường, kiến thức và kết quả lý luận.

Kiểm soát: Chuyển đổi kết quả quyết định thành hướng dẫn kiểm soát và đưa ra các lệnh thực thi cho mô-đun thực thi.

Thiết kế của mô-đun quyết định và kiểm soát là chìa khóa cho công nghệ đại lý. Việc sử dụng sớm logic và các phương pháp biểu tượng dựa trên quy tắc, các kỹ thuật học sâu đã trở thành xu hướng chủ đạo trong những năm gần đây. Đầu vào của mô-đun là các loại dữ liệu khác nhau thu được bằng nhận thức và đầu ra là lệnh điều khiển của mô-đun thực thi.

## Mô-đun thực thi

Mô-đun thực thi nhận các hướng dẫn điều khiển và chuyển chúng thành các hành vi tương tác môi trường cụ thể để đạt được nhiệm vụ tương ứng. Nó tương đương với “chân tay” của một người. Bộ truyền động kết nối với “hiệu ứng” của tác nhân và điều khiển hiệu ứng thay đổi môi trường theo lệnh điều khiển. Các tác nhân chính bao gồm:

Thiết bị truyền động chuyển động: cánh tay robot, khung gầm robot, v.v., để thay đổi vị trí của chính tác nhân hoặc thực hiện các thao tác của đối tượng.

Đầu ra giọng nói / văn bản: Bộ tổng hợp giọng nói, màn hình, v.v. để tương tác với môi trường trong giọng nói hoặc văn bản.

Giao diện vận hành công cụ / thiết bị: kiểm soát các thiết bị và công cụ khác nhau, và mở rộng khả năng hoạt động môi trường của tác nhân.

Thiết kế cụ thể của mô-đun thực thi có liên quan đến hình thức vật lý của tác nhân. Ví dụ, một tác nhân dịch vụ chỉ cần giao diện văn bản hoặc giọng nói, trong khi robot cần kết nối và điều khiển chính xác động học. Độ chính xác và khả năng phục hồi của việc thực hiện là chìa khóa thành công của nhiệm vụ.

Trong thí nghiệm thử nghiệm, các nhà nghiên cứu chủ yếu thực hiện ba loại thí nghiệm: nhiệm vụ, đổi mới và quản lý vòng đời để quan sát hiệu suất của tác nhân trong các môi trường khác nhau.

Thử nghiệm nhiệm vụ

Các nhà nghiên cứu đã xây dựng hai môi trường mô phỏng, trò chơi văn bản và kịch bản cuộc sống, để kiểm tra khả năng của các tác nhân hoàn thành các công việc hàng ngày. Môi trường chơi văn bản sử dụng ngôn ngữ tự nhiên để mô tả thế giới ảo và các tác nhân cần đọc mô tả văn bản để nhận thức môi trường xung quanh và hành động.

Mô phỏng cảnh cuộc sống thực tế và phức tạp hơn, và các đặc vụ cần sử dụng kiến thức thông thường để hiểu rõ hơn các lệnh, chẳng hạn như chủ động bật đèn khi phòng tối.

Kết quả thí nghiệm cho thấy các tác nhân có thể sử dụng khả năng tạo hiểu văn bản mạnh mẽ của họ để phân tách hiệu quả các nhiệm vụ phức tạp, lập kế hoạch và tương tác với các môi trường thay đổi linh hoạt trong các môi trường mô phỏng này để cuối cùng hoàn thành các mục tiêu được xác định trước.

Thử nghiệm sáng tạo

Các nhà nghiên cứu đã khám phá tiềm năng của các tác nhân trong các lĩnh vực chuyên môn như đổi mới khoa học. Do những thách thức về sự khan hiếm dữ liệu và khó khăn trong việc hiểu kiến thức miền chuyên ngành trong các lĩnh vực này, các nhà nghiên cứu đã thử nghiệm các giải pháp để trang bị cho các đại lý các công cụ chung hoặc chuyên dụng khác nhau để nâng cao hiểu biết của họ về kiến thức miền phức tạp.

Các thí nghiệm cho thấy tác nhân có thể sử dụng các công cụ tìm kiếm, đồ thị tri thức và các công cụ khác để tiến hành nghiên cứu trực tuyến và giao tiếp với các công cụ và thiết bị khoa học để hoàn thành các hoạt động thực tế như tổng hợp vật liệu. Điều này làm cho nó trở thành một trợ lý đầy hứa hẹn cho sự đổi mới khoa học.

Thử nghiệm vòng đời

Các nhà nghiên cứu đã sử dụng trò chơi thế giới mở Minecraft để kiểm tra khả năng liên tục học hỏi và sống sót của đặc vụ. Các đặc vụ bắt đầu với các hoạt động cơ bản nhất như khai thác gỗ và chế tạo bàn làm việc, dần dần khám phá những môi trường chưa biết và có được các kỹ năng sinh tồn phức tạp hơn.

Trong thí nghiệm, cơ thể thông minh được sử dụng để lập kế hoạch cấp cao và có thể liên tục điều chỉnh chiến lược theo phản hồi môi trường **. Kết quả cho thấy tác nhân có thể phát triển các kỹ năng dưới sự tự chủ hoàn toàn, liên tục thích nghi với môi trường mới và thể hiện khả năng quản lý vòng đời mạnh mẽ.

Ngoài ra, về mặt mô phỏng xã hội, các nhà nghiên cứu đã khám phá xem các tác nhân có thể hiện tính cách và hành vi xã hội hay không, đồng thời thử nghiệm các môi trường khác nhau. Kết quả cho thấy các tác nhân có thể thể hiện một số mức độ nhất định về khả năng nhận thức, cảm xúc và đặc điểm tính cách. Trong một xã hội mô phỏng, các hoạt động xã hội tự phát và hành vi nhóm xảy ra giữa các tác nhân.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận

Mihayou và Fudan phát hành, với nhận thức, trí tuệ, hành động của mô hình ngôn ngữ lớn "đặc vụ"

** Mô-đun nhận thức **

Mô-đun quyết định và kiểm soát **

Thử nghiệm nhiệm vụ

Thử nghiệm sáng tạo

Thử nghiệm vòng đời

Mô-đun nhận thức