Pesaing terkuat OpenAI melatih AI untuk membongkar kotak hitam LLM, dan secara tidak sengaja melihat sekilas "jiwa" dari model besar

Sumber asli: Zhiyuan Baru

Sumber gambar: Dihasilkan oleh Unbounded AI

Untuk membongkar “kotak hitam” model besar, tim Anthropic explainability menerbitkan sebuah makalah yang menjelaskan bagaimana mereka dapat melatih model baru untuk memahami model sederhana.

Sebuah studi yang diterbitkan oleh Anthropic mengklaim dapat melihat jiwa kecerdasan buatan. Ini terlihat seperti ini:

Alamat:

Menurut para peneliti, model baru dapat secara akurat memprediksi dan memahami prinsip kerja dan mekanisme komposisi neuron dalam model aslinya.

Tim explainability Anthropic baru-baru ini mengumumkan bahwa mereka telah berhasil menguraikan ruang fitur dimensi tinggi abstrak dalam sistem AI simulasi.

Buat AI yang dapat dijelaskan untuk memahami “kotak hitam AI”

Para peneliti pertama-tama melatih AI 512-neuron yang sangat sederhana untuk memprediksi teks, dan kemudian melatih AI lain yang disebut “autoencoder” untuk memprediksi pola aktivasi AI pertama.

Autoencoders diminta untuk membangun satu set fitur (sesuai dengan jumlah neuron dalam AI dimensi tinggi) dan memprediksi bagaimana fitur ini akan memetakan ke neuron dalam AI nyata.

Ditemukan bahwa sementara neuron dalam AI asli tidak mudah dipahami, neuron simulasi dalam AI baru (yaitu, “fitur”) adalah monosemi, dan setiap fitur mewakili konsep atau fungsi tertentu.

Misalnya, sifat #2663 mewakili konsep “Tuhan”.

Frasa pelatihan terkuat untuk mengaktifkannya berasal dari catatan Josephus yang mengatakan “Ketika badai salju menghujani Tuhan, dia pergi ke Sepphoris”.

Anda dapat melihat bahwa aktivasi di bagian atas adalah tentang penggunaan “Tuhan” yang berbeda.

Neuron simulasi ini tampaknya terdiri dari satu set neuron nyata, termasuk 407, 182, dan 259.

Neuron nyata ini sendiri tidak ada hubungannya dengan “Tuhan”, misalnya, Neuron 407 merespons terutama untuk teks non-Inggris (terutama huruf Latin yang ditekankan) dan teks non-standar (seperti tag HTML).

Tetapi pada tingkat fitur, semuanya beres, dan ketika fitur 2663 diaktifkan, itu meningkatkan kemungkinan “memberkati”, “melarang”, “sialan”, atau “-zilla” muncul dalam teks.

AI tidak membedakan konsep “Tuhan” dari “Tuhan” dalam nama monster. Ini mungkin karena AI improvisasi tidak memiliki sumber daya saraf yang cukup untuk menghadapinya.

Tetapi ini akan berubah seiring dengan meningkatnya jumlah fitur AI:

Di bagian bawah pohon ini, Anda dapat melihat bagaimana AI memahami “the” dalam perubahan istilah matematika karena memiliki lebih banyak karakteristik.

Pertama-tama, mengapa ada fitur khusus dari “the” dalam istilah matematika? Ini mungkin karena kebutuhan AI untuk memprediksi bahwa mengetahui “the” tertentu harus diikuti oleh beberapa kosakata matematika, seperti “numerator” atau “cosinus”.

Dari AI terkecil yang dilatih oleh para peneliti dengan hanya 512 fitur, hanya satu fitur yang mewakili “the”, sedangkan AI terbesar dengan 16.384 fitur telah dibagi menjadi satu fitur yang mewakili “the” dalam pembelajaran mesin, satu fitur yang mewakili “the” dalam analisis kompleks, dan satu fitur yang mewakili “the” dalam topologi dan aljabar abstrak.

Oleh karena itu, jika sistem dapat ditingkatkan ke AI dengan neuron yang lebih disimulasikan, karakteristik yang mewakili “Tuhan” kemungkinan akan terbagi menjadi dua - satu untuk arti “Tuhan” dalam agama dan yang lainnya untuk “Tuhan” atas nama monster.

Kemudian, mungkin ada Tuhan dalam agama Kristen, Tuhan dalam Yudaisme, Tuhan dalam filsafat, dan seterusnya.

Tim peneliti mengevaluasi interpretabilitas subjektif dari 412 kelompok neuron nyata dan neuron simulasi yang sesuai, dan menemukan bahwa interpretabilitas neuron simulasi umumnya baik:

Beberapa fitur, seperti yang berarti “Tuhan”, digunakan untuk konsep tertentu.

Banyak fitur lain yang sangat dapat ditafsirkan, termasuk beberapa yang paling dapat ditafsirkan, adalah “pemformatan” yang digunakan untuk mewakili teks, seperti huruf besar atau kecil, bahasa Inggris atau alfabet lainnya, dll.

Seberapa umumkah fitur-fitur ini? Artinya, jika Anda melatih dua AI fitur 4096 yang berbeda pada data teks yang sama, apakah mereka akan memiliki sebagian besar fitur 4096 yang sama? Akankah mereka semua memiliki karakteristik tertentu yang mewakili “Tuhan”?

Atau akankah AI pertama menyatukan “God” dan “Godzilla”, dan AI kedua akan memisahkan mereka? Akankah AI kedua tidak memiliki fitur “Tuhan” sama sekali, melainkan menggunakan ruang itu untuk menyimpan beberapa konsep lain yang tidak dapat dipahami oleh AI pertama?

Tim peneliti mengujinya dan menemukan bahwa dua model AI mereka sangat mirip!

Rata-rata, jika ada satu fitur dalam model pertama, fitur yang paling mirip dalam model kedua akan memiliki korelasi median 0,72.

Melihat jiwa AI

Apa selanjutnya?

Pada bulan Mei tahun ini, OpenAI mencoba mendapatkan GPT-4 (sangat besar) untuk memahami GPT-2 (sangat kecil). Mereka meminta GPT-4 memeriksa 307.200 neuron GPT-2 dan melaporkan apa yang ditemukannya.

GPT-4 menemukan serangkaian hasil yang menarik dan banyak omong kosong acak karena mereka belum menguasai seni memproyeksikan neuron nyata ke neuron simulasi dan menganalisis neuron simulasi.

Meskipun hasilnya tidak jelas, itu memang upaya yang sangat ambisius.

Tidak seperti AI ini dalam artikel penjelasan Anthropic, GPT-2 adalah AI nyata (meskipun sangat kecil) yang juga mengesankan masyarakat umum.

Tetapi tujuan akhir dari penelitian adalah untuk dapat menjelaskan sistem AI arus utama.

Tim explainability Anthropic mengakui bahwa mereka belum melakukan ini, terutama karena beberapa alasan:

Pertama-tama, meningkatkan autoencoders adalah hal yang sulit dilakukan. Untuk menjelaskan sistem seperti GPT-4 (atau sistem Claude yang setara dengan Anthropic), Anda memerlukan AI interpreter dengan ukuran yang hampir sama.

Tetapi melatih AI pada skala ini membutuhkan daya komputasi dan dukungan finansial yang besar.

Kedua, skalabilitas interpretasi juga menjadi masalah.

Bahkan jika kami menemukan semua neuron simulasi tentang Tuhan, Godzilla, dan segala sesuatu yang lain dan menggambar diagram besar tentang bagaimana mereka terhubung.

Para peneliti masih perlu menjawab pertanyaan yang lebih kompleks, dan menyelesaikannya membutuhkan interaksi kompleks yang melibatkan jutaan fitur dan koneksi.

Jadi perlu ada beberapa proses otomatis, semacam “biarkan GPT-4 memberi tahu kami apa yang dilakukan GPT-2”.

Akhirnya, apa yang dikatakan semua ini untuk memahami otak manusia?

Manusia juga menggunakan jaringan saraf untuk penalaran dan memproses konsep.

Ada banyak neuron di otak manusia, dan ini sama dengan GPT-4.

Data yang tersedia untuk manusia juga sangat jarang – ada banyak konsep (seperti cumi-cumi) yang jarang muncul dalam kehidupan sehari-hari.

Apakah kita juga meniru otak yang lebih besar?

Ini masih merupakan bidang penelitian yang sangat baru, tetapi ada beberapa temuan awal yang menunjukkan bahwa neuron di korteks visual manusia melakukan pengkodean fitur dalam beberapa cara hiperlokal, mirip dengan pola yang diamati dalam model AI.

Sumber daya:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)