Penelitian model besar Google terperosok dalam kontroversi besar: sama sekali tidak mungkin untuk menggeneralisasi di luar data pelatihan?

Sumber Asli: Dimensi Kuantum

Sumber gambar: Dihasilkan oleh Unbounded AI

Untuk Transformer, penemuan baru oleh Google DeepMind telah menyebabkan banyak kontroversi:

Ini memiliki kemampuan untuk menggeneralisasi dan tidak dapat diperluas melampaui data pelatihan.

Saat ini, kesimpulan ini belum diverifikasi lebih lanjut, tetapi telah membuat khawatir banyak petinggi, seperti Francois Chollet, ayah dari Keras, yang mengatakan bahwa jika berita itu benar, itu akan menjadi peristiwa besar di dunia model besar.

Google Transformer adalah infrastruktur di balik model besar saat ini, dan “T” di GPT yang kita kenal mengacu padanya.

Serangkaian model besar menunjukkan kemampuan pembelajaran kontekstual yang kuat untuk mempelajari contoh dengan cepat dan menyelesaikan tugas baru.

Tapi sekarang, para peneliti dari Google, juga dari Google, tampaknya menunjukkan kelemahan fatalnya – bahwa itu tidak berdaya di luar data pelatihan, yaitu pengetahuan manusia.

Untuk sementara waktu, banyak praktisi berpikir bahwa AGI telah menjadi tidak terjangkau lagi.

Namun, beberapa netizen menemukan lebih banyak detail kunci tetapi diabaikan di koran, seperti hanya melakukan eksperimen skala GPT-2, dan data pelatihan bukan bahasa.

Seiring berjalannya waktu, semakin banyak netizen yang mempelajari makalah tersebut dengan cermat menunjukkan bahwa tidak ada yang salah dengan kesimpulan penelitian itu sendiri, tetapi orang-orang membuat interpretasi yang berlebihan berdasarkan kesimpulan tersebut.

Setelah makalah tersebut memicu diskusi panas di kalangan netizen, salah satu penulis juga keluar untuk membuat dua klarifikasi:

Pertama-tama, Transformer sederhana digunakan, yang bukan “besar” atau model bahasa;
Kedua, model dapat mempelajari tugas-tugas baru, tetapi tidak dapat menggeneralisasi ke jenis tugas baru

Sejak itu, beberapa netizen mengulangi eksperimen ini di Colab, tetapi mereka memperoleh hasil yang sama sekali berbeda.

Jadi, mari kita lihat apa yang dikatakan makalah ini dan Samuel, yang mengusulkan hasil yang berbeda, pada akhirnya.

Fungsi baru hampir tidak dapat diprediksi

Dalam percobaan, penulis melatih Transformer pada kerangka pembelajaran mesin berbasis Jax yang mendekati skala GPT-2 dan hanya berisi decoder.

Ini mencakup 12 lapisan, 8 kepala perhatian, 256 dimensi spasial tertanam, dan sekitar 9,5 juta parameter.

Untuk menguji kemampuan generalisasinya, penulis menggunakan fungsi sebagai objek uji – fungsi linier dan fungsi sinusoidal diumpankan ke model sebagai data pelatihan.

Kedua fungsi ini diketahui oleh model saat ini, dan hasil prediksi secara alami baik, tetapi ketika para peneliti menggabungkan fungsi linier dan fungsi sinusoidal cembung, masalah muncul.

Kombinasi cembung tidak begitu misterius, dan penulis membangun fungsi dari bentuk f (x) = a · kx + (1-a) sin (x), yang tampaknya tidak lebih dari penambahan sederhana dari dua fungsi secara proporsional.

Tetapi alasan mengapa kita berpikir ini justru karena otak kita memiliki kemampuan untuk menggeneralisasi di bidang ini, dan model besarnya berbeda.

Alih-alih melihatnya sebagai aditif sederhana, ini adalah fungsi yang sama sekali baru untuk model yang hanya melihat fungsi linier dan sinusoidal.

Untuk fungsi baru ini, prediksi yang diberikan oleh Transformer dapat dikatakan tidak akurat (Gambar 4c) - sehingga penulis berasumsi bahwa model tidak memiliki kemampuan generalisasi pada fungsi tersebut.

Untuk lebih memvalidasi kesimpulan mereka, penulis menyesuaikan bobot fungsi linier atau sinusoidal, tetapi bahkan kemudian tidak ada perubahan signifikan dalam kinerja prediktif Transformator.

Hanya ada satu pengecualian - ketika berat salah satu item mendekati 1, prediksi model lebih konsisten dengan kenyataan.

Namun, bobot 1 berarti bahwa fungsi baru yang tidak dikenal secara langsung menjadi fungsi yang terlihat selama pelatihan, dan data tersebut jelas memiliki sedikit arti untuk kemampuan generalisasi.

Eksperimen lebih lanjut juga menunjukkan bahwa Transformer tidak hanya sangat sensitif terhadap jenis fungsi, tetapi bahkan jenis fungsi yang sama dapat menjadi kondisi yang tidak dikenal.

Para peneliti menemukan bahwa bahkan jika itu adalah fungsi sinus sederhana, hanya mengubah frekuensi di dalamnya, prediksi model akan mengubah wiring harness.

Hanya ketika frekuensi mendekati fungsi dalam data pelatihan, model dapat memberikan prediksi yang lebih akurat, ketika frekuensinya terlalu tinggi atau terlalu rendah, hasil prediksi sangat bias …

Berdasarkan hal ini, penulis percaya bahwa selama kondisinya sedikit berbeda, model besar tidak akan tahu bagaimana melakukannya, yang berarti kemampuan generalisasinya buruk.

Dalam makalah ini, penulis juga menjelaskan beberapa keterbatasan dalam penelitian, dan bagaimana menerapkan pengamatan pada data fungsional untuk masalah bahasa alami tokenized.

Tim juga mencoba eksperimen serupa dengan model bahasa, tetapi menemui beberapa kendala, dan bagaimana mendefinisikan keluarga tugas dengan benar (setara dengan jenis fungsi di sini), kombinasi cembung, dll., Masih harus dipecahkan.

Model Samuel, di sisi lain, jauh lebih kecil, dengan hanya 4 lapisan, dan dapat digeneralisasikan ke kombinasi fungsi linier dan sinusoidal setelah 5 menit pelatihan tentang Colab.

Bagaimana jika Anda tidak bisa menggeneralisasi

Secara keseluruhan, kesimpulan dari artikel CEO Quora sangat sempit dan hanya dapat dipegang di bawah banyak asumsi.

Gu Quanquan, seorang profesor pemenang Hadiah Sloan di UCLA, mengatakan kesimpulan makalah itu tidak kontroversial, tetapi mereka tidak boleh ditafsirkan secara berlebihan.

Dikombinasikan dengan penelitian sebelumnya, Transformer tidak dapat menggeneralisasi sesuatu yang “berbeda secara signifikan” dari data pra-terlatih, sedangkan pada kenyataannya, kemampuan generalisasi model besar biasanya diukur dengan keragaman tugas dan kompleksitas tugas.

Jika Anda hati-hati menyelidiki kemampuan generalisasi Transformer, saya khawatir peluru akan perlu untuk membiarkan peluru terbang untuk sementara waktu.

Tetapi bahkan jika Anda benar-benar tidak memiliki kemampuan untuk menggeneralisasi, apa yang dapat Anda lakukan?

Ilmuwan AI Nvidia Jim Fan mengatakan bahwa fenomena ini sebenarnya tidak aneh, karena Transformer bukanlah obat mujarab, dan model besar berkinerja baik karena data pelatihan adalah yang kami pedulikan.

Jim lebih lanjut menambahkan, itu seperti mengatakan, melatih model visi dengan 100 miliar foto kucing dan anjing, dan kemudian meminta model mengenali pesawat terbang, dan kemudian menemukan, wow, saya benar-benar tidak mengenal Anda.

Tidak hanya model besar, tetapi manusia mungkin tidak dapat memiliki solusi ketika mereka menghadapi beberapa tugas yang tidak diketahui, apakah ini juga berarti bahwa manusia tidak memiliki kemampuan untuk menggeneralisasi?

Oleh karena itu, di bawah orientasi tujuan, apakah itu model besar atau manusia, tujuan utamanya adalah kembali memecahkan masalah, dan generalisasi hanyalah sarana.

Untuk meminjam meme ini, karena kemampuan generalisasinya kurang, maka latihlah sampai tidak ada data di luar pelatihan.

Jadi, apa pendapat Anda tentang penelitian ini?

Alamat:

AGI2.17%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)