Gemini 3.5 Flash datang dengan reputasi sebagai model cepat dan murah, tetapi hasil uji coding Android justru menunjukkan hal sebaliknya. Di Android Bench, model terbaru Google itu tidak masuk lima besar dan malah menjadi yang paling mahal di daftar.
Temuan ini membuat posisi Gemini 3.5 Flash terlihat janggal untuk sebuah model yang diposisikan sebagai andalan baru. Dalam pengujian yang fokus pada tugas pengembangan Android, performanya kalah dari beberapa rival dan juga dari model Google yang lebih lama.
Skor di bawah ekspektasi
Android Bench adalah leaderboard yang dipakai untuk menguji kemampuan model AI dalam menangani pekerjaan pengembangan Android. Pada pemeringkatan terbaru, OpenAI GPT 5.5 menempati posisi pertama dengan skor 74.
Di bawahnya, GPT 5.4 dan Gemini 3.1 Pro Preview sama-sama meraih skor 72,4. Model Claude Opus terbaru juga masih berada di atas Gemini 3.5 Flash.
Gemini 3.5 Flash sendiri finis di posisi keenam dengan skor 63,7. Selisih itu cukup besar jika dibandingkan dengan kelompok teratas, padahal model ini dipromosikan sebagai versi premium baru dari Google.
Biaya paling tinggi
Yang membuat hasil ini makin mencolok bukan hanya skor yang tertinggal, tetapi juga efisiensinya. Berdasarkan data benchmark Google, Gemini 3.5 Flash rata-rata memakai 355,9 total token.
Penggunaan token itu mendorong biaya rata-rata menjadi $147.1 per run. Angka tersebut menempatkannya sebagai model termahal di seluruh peringkat, meski performanya masih kalah dari sejumlah pesaing.
Bagi pengembang, kondisi ini memunculkan pertanyaan soal nilai guna. Model yang lebih mahal biasanya diharapkan memberi hasil lebih baik, namun Android Bench justru menunjukkan kebalikan untuk skenario coding Android.
Model lama justru lebih menarik
Perbandingan yang paling menonjol datang dari Gemini 3.1 Pro Preview. Model lama Google itu bukan hanya mencetak skor lebih tinggi, tetapi juga disebut 9to5Google membutuhkan biaya sekitar sepertiga dari Gemini 3.5 Flash.
Perbedaan itu membuat Gemini 3.5 Flash sulit dipandang sebagai lompatan yang jelas dalam efisiensi maupun performa. Untuk tugas Android, model lama justru tampak memberi kombinasi hasil dan biaya yang lebih masuk akal.
Dominasi GPT 5.5 di puncak leaderboard menambah tekanan kompetitif bagi Google. GPT 5.4 yang menyamai skor Gemini 3.1 Pro Preview juga memperlihatkan bahwa persaingan di model coding kini semakin ketat.
Kehadiran Claude Opus di atas Gemini 3.5 Flash ikut menegaskan bahwa pasar model coding semakin padat. Keputusan pengembang kini makin ditentukan oleh performa nyata dan efisiensi biaya, bukan hanya nama besar di belakang modelnya.
Antara klaim dan hasil lapangan
Google sebelumnya memperkenalkan Gemini 3.5 Flash di Google I/O 2026 dan menyebutnya sebagai model Flash paling bertenaga yang pernah dibuat. Perusahaan juga mengklaim kemampuan coding-nya lebih kuat serta lebih baik untuk AI agent dan alur kerja kompleks.
Dalam presentasi yang sama, Google mengatakan Gemini 3.5 Flash mengungguli Gemini 3.1 Pro pada sejumlah benchmark internal. Perusahaan juga menyebut output model itu bisa hingga empat kali lebih cepat dibanding model frontier pesaing.
Namun hasil Android Bench memberikan gambaran yang berbeda untuk skenario pengembangan Android. Untuk tugas yang diuji di leaderboard tersebut, Gemini 3.5 Flash belum menunjukkan keunggulan yang sejalan dengan klaim posisi dan harganya.
Perbedaan antara benchmark internal dan pengujian berbasis tugas nyata bukan hal baru di industri AI. Meski begitu, ketika hasilnya datang dari leaderboard Android milik Google sendiri, sorotan terhadap model ini jadi jauh lebih besar.
Untuk saat ini, data Android Bench mengirim pesan yang sederhana bagi pengembang Android. Model terbaru Google belum menjadi pilihan paling unggul, dan justru hadir dengan biaya tertinggi di daftar yang sama.
