OpenAI mendadak merilis model GPT-5.5, menonjolkan kemampuan paling kuat dan intuitif dalam pemrograman serta operasi lintas alat, artikel ini merangkum perbandingan performa model-model utama seperti GPT-5.5, Claude Opus 4.7, dan Gemini 3.1 Pro.

OpenAI model GPT-5.5 telah hadir! Fitur utama sekilas

Raksasa AI OpenAI pada dini hari waktu Taiwan tanggal 24 April, secara mendadak meluncurkan model GPT-5.5 yang baru, mengklaim sebagai sistem AI paling cerdas dan paling intuitif yang pernah ada.

OpenAI menyatakan, model GPT-5.5 memiliki kemampuan agen AI yang kuat dalam menulis kode, mahir dalam menangani kode selain bug, penelitian online, dan operasi lintas alat.

Dibandingkan dengan pendahulunya GPT-5.4, GPT-5.5 mempertahankan tingkat latensi komputasi yang sama, namun dapat menyelesaikan tugas dengan lebih sedikit token.

Presiden OpenAI Greg Brockman menyebutkan, model baru ini adalah langkah penting menuju komputasi yang lebih intuitif, dan juga kunci dalam membangun aplikasi super yang menggabungkan ChatGPT, Codex, dan browser AI.

Skema biaya dan hak penggunaan model GPT-5.5

Mulai hari ini, pengguna ChatGPT Plus, Pro, Business, dan Enterprise, serta pengguna Codex dapat menggunakan GPT-5.5, sedangkan versi lanjutan GPT-5.5 Pro disediakan untuk pengguna Pro, Business, dan Enterprise.

Dalam hal penetapan harga API, biaya token input GPT-5.5 adalah 5 dolar AS per 1 juta token, dan outputnya 30 dolar AS per 1 juta token. GPT-5.5 Pro mengenakan biaya 30 dolar AS per 1 juta token input dan 180 dolar AS per 1 juta token output.

Yang menarik, peluncuran model GPT-5.5 ini bertepatan dengan proses hukum antara Elon Musk dan CEO OpenAI Sam Altman, menarik perhatian publik.

Performa pengujian standar GPT-5.5: analisis keunggulan dan kelemahan

Dalam pengujian benchmark, GPT-5.5 menunjukkan keunggulan teknis, namun beberapa bidang masih menghadapi tantangan.

Berdasarkan data resmi OpenAI, model GPT-5.5 mencapai akurasi 82,7% dalam pengujian Terminal-Bench 2.0 yang menilai perintah kompleks; dalam pengujian GDPval yang menilai pekerjaan berbasis pengetahuan, memperoleh skor 84,9%, menunjukkan nilai praktis tinggi dalam pekerjaan kantor sehari-hari.

Dalam pengujian terbuka SWE-Bench Pro yang menilai penyelesaian masalah nyata di GitHub, GPT-5.5 mendapatkan skor 58,6%, sedikit tertinggal dari Claude Opus 4.7 yang mencapai 64,3%.

OpenAI menyebutkan, pengujian ini mungkin dipengaruhi oleh efek memori model, namun tetap menunjukkan kelemahan GPT-5.5 dalam pengembangan tertentu terkait perbaikan bug.

Sumber gambar: OpenAI

Performa pengujian benchmark GPT-5.5: analisis keunggulan dan kelemahan

Dalam bidang keamanan siber, Anthropic baru-baru ini meluncurkan model Claude Mythos Preview yang menonjolkan keamanan siber yang kuat, sementara GPT-5.5 meskipun meningkatkan kemampuan pertahanan, saat ini hanya tersedia melalui saluran tertentu untuk perusahaan yang terverifikasi guna perlindungan infrastruktur.

Perbandingan model utama: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

Perbandingan data GPT-5.5 dan Claude Opus 4.7

Berdasarkan data pengujian resmi OpenAI dan ITmedia, dalam pengujian lingkungan komputer nyata OSWorld-Verified, GPT-5.5 meraih skor 78,7%, sedikit mengungguli Claude Opus 4.7 yang mendapatkan 78,0%.

Dalam pengujian BrowseComp yang menilai logika lanjutan dan kolaborasi alat, GPT-5.5 memperoleh 84,4%, mengalahkan Claude Opus 4.7 yang mendapatkan 79,3%; dalam pengujian kemampuan matematika tingkat tinggi FrontierMath Tier 1 sampai 3, GPT-5.5 mencapai 51,7%, mengungguli Claude Opus 4.7 yang mencapai 43,8%.

Perbandingan data GPT-5.5 dan Gemini 3.1 Pro

Dibandingkan dengan Gemini 3.1 Pro, GPT-5.5 mempertahankan keunggulan di sebagian besar pengujian profesional. Dalam pengujian pengetahuan GDPval, GPT-5.5 meraih 84,9%, mengungguli Gemini 3.1 Pro yang mencapai 67,3%.

Dalam penilaian penggunaan alat eksternal Toolathlon, GPT-5.5 mendapatkan skor 55,6%, lebih baik dari Gemini 3.1 Pro yang mencapai 48,8%.

Sumber gambar: Perbandingan data GPT-5.5 dan Gemini 3.1 Pro

Dalam pengujian multimodal MMMU Pro tanpa bantuan alat, GPT-5.5 memperoleh skor 81,2%, sedangkan Gemini 3.1 Pro mendapatkan 80,5%, keduanya menunjukkan performa yang sangat dekat.

GPT-5.5 Apakah akan membuka jalan untuk IPO?

Kepala riset OpenAI Mark Chen menyatakan, GPT-5.5 membawa peningkatan nyata dalam proses penelitian ilmiah dan teknologi, dan di masa depan berpotensi membantu ilmuwan mempercepat penelitian di bidang penemuan obat.

Media asing The Verge menunjukkan, peluncuran model baru ini mencerminkan persaingan sengit antara OpenAI dan Anthropic dalam merebut pasar alat AI tingkat perusahaan, serta membuka jalan untuk kemungkinan penawaran umum perdana (IPO) yang mungkin dilakukan akhir tahun ini, dengan kedua pihak bersaing secara ketat.

Baca selengkapnya:
Bagaimana cara menggunakan ChatGPT Images 2.0? Pengujian menu mie daging sapi, sampul majalah, dan efek ilmiah multibahasa

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
372.35K Popularitas
#
CryptoMarketsDipSlightly
276.48K Popularitas
#
IsraelStrikesIranBTCPlunges
36.21K Popularitas
#
#DailyPolymarketHotspot
703.99K Popularitas
#
StrategyAccumulates2xMiningRate
139.54M Popularitas

Sematkan

peta situs

Peluncuran model GPT 5.5: Fokus pada pemrograman penelitian! Bandingkan perbedaan dengan Claude Opus 4.7 sekali lihat

OpenAI model GPT-5.5 telah hadir! Fitur utama sekilas

Skema biaya dan hak penggunaan model GPT-5.5

Performa pengujian standar GPT-5.5: analisis keunggulan dan kelemahan

Perbandingan model utama: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

Perbandingan data GPT-5.5 dan Claude Opus 4.7

Perbandingan data GPT-5.5 dan Gemini 3.1 Pro

GPT-5.5 Apakah akan membuka jalan untuk IPO?

Topik Trending

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Sematkan