Mihayou dan Fudan melepaskan, dengan persepsi, otak, aksi "agen" model bahasa besar

Sumber asli: AIGC Open Community

Sumber gambar: Dihasilkan oleh Unbounded AI

Model bahasa besar seperti ChatGPT menunjukkan kemampuan kreatif yang belum pernah terjadi sebelumnya, tetapi mereka masih jauh dari AGI (General Artificial Intelligence), dan tidak memiliki kemampuan antropomorfik seperti pengambilan keputusan otonom, penyimpanan memori, dan perencanaan.

Untuk mengeksplorasi evolusi model bahasa besar ke AGI dan berevolusi menjadi kecerdasan buatan super yang melampaui manusia, Mihayou dan tim peneliti Fudan NLP bersama-sama merilis makalah “agen” berdasarkan model bahasa besar. ** Tempatkan agen dengan tiga fungsi persepsi, otak dan tindakan dalam lingkungan eksperimental seperti permainan teks dan kotak pasir untuk membiarkan mereka bergerak sendiri **.

Hasil penelitian menunjukkan bahwa agen-agen ini memiliki kemampuan antropomorfik seperti persepsi otonom, perencanaan, pengambilan keputusan dan komunikasi, misalnya, ketika lingkungan sekitar menjadi sulit dan sulit, agen akan secara otomatis menyesuaikan strategi dan tindakan mereka; Dalam lingkungan simulasi sosial, agen menunjukkan emosi antropomorfik seperti empati; Ketika dua agen aneh berkomunikasi dengan sederhana, mereka saling mengingat.

Kerangka teknis ini mirip dengan eksperimen simulasi game agen AI yang dirilis oleh Universitas Stanford dan Universitas Tsinghua sebelumnya, yang didasarkan pada model bahasa besar untuk membangun robot AI yang lebih kuat, yang telah berperan dalam mempromosikan pengembangan industri.

Alamat kertas:

Github:

Menurut makalah itu, agen terutama terdiri dari tiga modul: persepsi, pengambilan keputusan dan kontrol, dan eksekusi, yang memahami lingkungan, membuat keputusan cerdas dan kemudian melakukan tindakan spesifik.

Modul Persepsi

Modul persepsi digunakan untuk memperoleh berbagai informasi dari lingkungan, setara dengan indera manusia. Ini dapat berisi berbagai sensor untuk mendapatkan berbagai jenis data, misalnya, kamera memperoleh informasi gambar, mikrofon memperoleh informasi suara, dll.

Modul persepsi memproses data mentah ini dan mengubahnya menjadi representasi digital yang dapat dipahami agen untuk modul berikutnya. Sensor persepsi yang umum digunakan meliputi:

Sensor gambar: kamera, kamera RGB-D, dll., Digunakan untuk memperoleh informasi visual.

Sensor suara: mikrofon, dapatkan informasi audio seperti suara dan suara sekitar.

Sensor posisi: GPS, INS (sistem navigasi inersia), dll., Untuk mengetahui posisi agen itu sendiri.

Sensor taktil: ARRAY haptic, sarung tangan taktil, dll., Untuk mendapatkan umpan balik sentuhan saat benda bersentuhan.

Suhu, kelembaban, tekanan udara dan sensor lingkungan lainnya untuk mendapatkan informasi parameter lingkungan.

Modul persepsi perlu melakukan praproses data mentah, misalnya, denoising gambar, pengurangan noise suara, konversi format, dll., Untuk menghasilkan data yang dinormalisasi yang dapat digunakan oleh modul berikutnya. Pada saat yang sama, modul persepsi juga dapat melakukan ekstraksi fitur, seperti mengekstrak fitur visual seperti tepi, tekstur, dan area target dari gambar.

Modul Keputusan dan Kontrol **

Modul ini adalah “otak” agen, memproses, menganalisis dan membuat keputusan yang sesuai pada data yang diperoleh oleh modul persepsi. Ini dapat dibagi lagi menjadi submodul berikut:

Basis pengetahuan / memori: menyimpan semua jenis pengetahuan, pengalaman, serta pengamatan, pengalaman, dan informasi lainnya sebelumnya selama eksekusi.

Penalaran / perencanaan: Menganalisis lingkungan saat ini dan mengembangkan tindakan sesuai dengan tugas target. Seperti perencanaan jalur, perencanaan urutan tindakan, dll.

Pengambilan keputusan: Membuat keputusan optimal berdasarkan keadaan lingkungan, pengetahuan, dan hasil penalaran saat ini.

Kontrol: Ubah hasil keputusan menjadi instruksi kontrol dan keluarkan perintah eksekusi ke modul eksekusi.

Desain modul keputusan dan kontrol adalah kunci untuk teknologi agen. Penggunaan awal logika dan metode simbolik berbasis aturan, teknik pembelajaran mendalam telah menjadi arus utama dalam beberapa tahun terakhir. Input modul adalah berbagai jenis data yang diperoleh oleh persepsi, dan outputnya adalah instruksi kontrol dari modul eksekusi.

## Modul Eksekusi

Modul eksekusi menerima instruksi kontrol dan menerjemahkannya ke dalam perilaku interaksi lingkungan tertentu untuk mencapai tugas yang sesuai. Ini setara dengan “anggota badan” seseorang. Aktuator terhubung ke “efektor” agen dan menggerakkan efektor untuk mengubah lingkungan sesuai dengan perintah kontrol. Efektor utama meliputi:

Aktuator gerak: lengan robot, sasis robot, dll., Untuk mengubah posisi agen itu sendiri atau melakukan operasi objek.

Output ucapan/teks: Penyintesis ucapan, tampilan, dll. untuk berinteraksi dengan lingkungan dalam ucapan atau teks.

Antarmuka operasi alat / peralatan: mengontrol berbagai perangkat dan alat, dan memperluas kemampuan operasi lingkungan agen.

Desain khusus modul eksekusi terkait dengan bentuk fisik agen. Misalnya, agen layanan hanya membutuhkan antarmuka teks atau suara, sementara robot perlu menghubungkan dan mengontrol kinematika dengan tepat. Akurasi dan ketahanan eksekusi adalah kunci keberhasilan misi.

Dalam percobaan uji, para peneliti terutama melakukan tiga jenis percobaan: tugas, inovasi dan manajemen siklus hidup untuk mengamati kinerja agen di lingkungan yang berbeda.

Eksperimen Tugas

Para peneliti membangun dua lingkungan simulasi, permainan teks dan skenario kehidupan, untuk menguji kemampuan agen untuk menyelesaikan tugas sehari-hari. Lingkungan bermain teks menggunakan bahasa alami untuk menggambarkan dunia virtual, dan agen perlu membaca deskripsi teks untuk memahami lingkungan mereka dan mengambil tindakan.

Simulasi adegan kehidupan lebih realistis dan kompleks, dan agen perlu menggunakan pengetahuan akal sehat untuk lebih memahami perintah, seperti menyalakan lampu secara aktif saat ruangan gelap.

Hasil eksperimen menunjukkan bahwa agen dapat menggunakan kemampuan pembuatan pemahaman teks mereka yang kuat untuk secara efektif menguraikan tugas-tugas kompleks, membuat rencana, dan berinteraksi dengan lingkungan yang berubah secara dinamis di lingkungan simulasi ini untuk akhirnya mencapai tujuan yang telah ditentukan.

Eksperimen Inovatif

Para peneliti mengeksplorasi potensi agen di bidang khusus seperti inovasi ilmiah. Karena tantangan kelangkaan data dan kesulitan dalam memahami pengetahuan domain khusus di bidang ini, para peneliti menguji solusi untuk melengkapi agen dengan berbagai alat umum atau khusus untuk meningkatkan pemahaman mereka tentang pengetahuan domain yang kompleks.

Eksperimen menunjukkan bahwa agen dapat menggunakan mesin pencari, grafik pengetahuan dan alat lain untuk melakukan penelitian online, dan antarmuka dengan instrumen dan peralatan ilmiah untuk menyelesaikan operasi praktis seperti sintesis material. Ini membuatnya menjadi asisten yang menjanjikan untuk inovasi ilmiah.

Percobaan Siklus Hidup

Para peneliti menggunakan game dunia terbuka Minecraft untuk menguji kemampuan agen untuk terus belajar dan bertahan hidup. Agen mulai dengan kegiatan paling dasar seperti menambang kayu dan membuat meja kerja, secara bertahap menjelajahi lingkungan yang tidak diketahui dan memperoleh keterampilan bertahan hidup yang lebih kompleks.

Dalam percobaan, badan cerdas digunakan untuk perencanaan tingkat tinggi dan dapat terus menyesuaikan strategi sesuai dengan umpan balik lingkungan **. Hasilnya menunjukkan bahwa agen dapat mengembangkan keterampilan di bawah otonomi penuh, terus beradaptasi dengan lingkungan baru, dan menunjukkan kemampuan manajemen siklus hidup yang kuat.

Selain itu, dalam hal simulasi sosial, para peneliti mengeksplorasi apakah agen menunjukkan kepribadian dan perilaku sosial, dan menguji pengaturan lingkungan yang berbeda. Hasilnya menunjukkan bahwa agen dapat menunjukkan tingkat kemampuan kognitif, emosi, dan ciri-ciri kepribadian tertentu. Dalam masyarakat simulasi, kegiatan sosial spontan dan perilaku kelompok terjadi antara agen.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)