Perang AI baru saja menjadi menarik. Sebuah model baru mengklaim tahta dengan angka yang mengejutkan—rating Elo 1483 dalam mode penalaran di papan peringkat teks LMArena. Itu selisih 31 poin di atas pesaing non-afiliasi terdekatnya. Bahkan tanpa fitur penalaran tambahan, model ini merebut posisi #2.



Apa yang mendorong lonjakan ini? Model ini tampaknya menulis ulang tolok ukur di semua lini. Baik dalam menangani rantai logika yang kompleks maupun memproses pertanyaan bernuansa, selisih performanya sulit diabaikan. Papan peringkat tidak berbohong—ketika Anda melampaui pemain mapan dengan margin sebesar itu, pasti ada perubahan mendasar dalam arsitekturnya.

Namun ada catatan: dominasi dalam uji coba terkontrol tidak selalu berarti supremasi di dunia nyata. Kita sudah pernah melihat model yang sukses besar di tolok ukur, namun tersandung pada kasus tepi yang benar-benar penting bagi pengguna. Meski begitu, metrik ini tetap penting. Mereka menandakan ke mana batas atas teknologi bergerak, dan saat ini, pergerakannya sangat cepat.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
CoffeeNFTradervip
· 12-05 02:50
Tunggu, selisih 31 poin? Ini pasti ada peningkatan arsitektur yang besar banget.
Lihat AsliBalas0
Degen4Breakfastvip
· 12-05 02:49
1483 poin? Bro, angka segini nggak masuk akal, papan peringkat mulai main-main lagi. Benchmark menang telak itu satu hal, tapi pengalaman nyata saat dipakai itu hal lain, udah sering banget lihat trik kayak gini. Perubahan arsitektur memang keren, tapi tunggu dulu lihat pengalaman pengguna sebenarnya. Kalau kali ini nggak gagal, gue salut deh. Bonus dari mode inferensi segede ini, jangan-jangan lagi main-main data lagi.
Lihat AsliBalas0
P2ENotWorkingvip
· 12-05 02:41
Lagi-lagi trik lama ini, jadi juara benchmark langsung mau terbang ke langit? Tunggu dipakai beneran dulu deh. --- 1483 poin itu lumayan, tapi skor benchmark bisa mewakili apa... siapa yang tahu gimana rasanya dipakai beneran --- Perubahan arsitektur yang fundamental? Atau cuma ubah sedikit parameter doang, unsur hype-nya lebih besar --- Tunggu dulu, kali ini beneran beda gak sih? Atau cuma jadi model hype yang sebentar doang --- Ranking kayak gini, siapa yang percaya pasti rugi hahaha --- Unggul 31 poin dari pemimpin sebelumnya, kok angkanya familiar banget ya... yang dulu juga bilang dirinya ngalahin semuanya --- Sudahlah, toh sebentar lagi ada yang baru lagi, hype kayak gini juga gak bakal lama --- Masalahnya di skenario nyata sama sekali gak kepake, coba aja di percakapan kompleks baru kerasa --- Datang lagi nih, tiap kali juga ngomong gitu, tapi pas dijalankan hasilnya biasa aja --- Indikator penting? Indikator bisa ngasih saya duit gak...
Lihat AsliBalas0
SatoshiHeirvip
· 12-05 02:27
Angka benchmark bisa menipu, saya sudah melihat terlalu banyak. Skor 1483 terdengar sangat mengesankan, tapi ujian sebenarnya ada pada detail-detail kecil... Tunggu dulu, terobosan di tingkat arsitektur? Perlu dicatat, inilah sinyal yang benar-benar patut diperhatikan.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)