Google memperbarui penetapan harga API Gemini, dengan penagihan berdasarkan tingkat penggunaan inferensi

robot
Pembuatan abstrak sedang berlangsung

Berita Mars Finance pada 3 April, Google baru-baru ini memperbarui tingkat penagihan untuk API Gemini. Solusi dan penetapan harganya kali ini disusun berdasarkan kebutuhan penggunaan penalaran yang benar-benar terjadi. Tingkat layanan penalaran yang ditambahkan kali ini mencakup: standar (Standard), fleksibel (Flex), prioritas (Priority), batch (Batch), dan versi cache (Caching). Di antaranya, tingkat penalaran fleksibel memanfaatkan kapasitas komputasi menganggur di luar jam puncak, memberikan diskon lima puluh persen dari harga standar, dengan target latensi 1 hingga 15 menit, namun tidak menyediakan jaminan latensi. Tingkat batch API juga menawarkan diskon lima puluh persen dari tarif standar, dengan latensi maksimum hingga 24 jam. Tingkat caching ditagih berdasarkan jumlah token (Token) cache dan durasi penyimpanan; direkomendasikan untuk skenario seperti chatbot percakapan yang menjalankan instruksi sistem kompleks, analisis berulang file video berdurasi panjang, serta kueri pada kumpulan dokumen skala besar. Harga tingkat prioritas berada 75% hingga 100% lebih tinggi daripada harga standar, dan latensi dapat dikendalikan pada level milidetik hingga hitungan detik. Google menyarankan agar tingkat ini digunakan untuk skenario seperti chatbot layanan pelanggan real-time, deteksi penipuan real-time, dan asisten cerdas tipe yang sangat penting bagi bisnis. (Pengamatan Sudut Lebar)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan