Google membawa Gemini 3.5 ke arah yang jauh lebih ambisius daripada sekadar chatbot biasa. Model ini diposisikan sebagai sistem yang bisa menjalankan alur kerja agentic secara mandiri, termasuk memecah tugas rumit menjadi langkah-langkah kecil lalu mengeksekusinya sendiri.
Perubahan arah ini penting bagi pengembang dan pengguna enterprise yang selama ini membutuhkan AI untuk menangani konteks panjang, alat eksternal, dan pekerjaan multi-langkah. Google juga menampilkan versi Pro sebagai bagian dari pengembangan yang menekankan penalaran multimodal, kemampuan agentic, desain infrastruktur, dan penggunaan alat di dunia nyata.
Gemini 3.5 diarahkan untuk agentic coding
Salah satu fokus terbesar Gemini 3.5 ada pada coding berbasis agen. Model ini dirancang untuk menyusun rencana multi-langkah, menugaskan sub-agent, memakai konteks sebelumnya, lalu memanfaatkan alat yang tersedia untuk menyelesaikan pekerjaan secara otonom.
Pendekatan itu membuat Gemini 3.5 berbeda dari chatbot tradisional yang umumnya hanya merespons satu per satu perintah pengguna. Dalam skenario pengembangan perangkat lunak, pola ini membuat AI bekerja lebih dekat dengan cara tim teknis menangani tugas kompleks di dunia nyata.
Google juga menyiapkan platform pengembangan bernama Antigravity untuk mendukung pendekatan agent-first tersebut. Platform ini mencakup aplikasi desktop, SDK, CLI, dan dukungan suara untuk prototyping langsung, penanganan tugas kompleks, serta orkestrasi workflow multi-agent.
Konteks panjang jadi salah satu andalan utama
Gemini 3.5 mendukung context window hingga 1 juta token dan output hingga 65.000 token. Kapasitas ini ditujukan untuk menangani percakapan panjang, codebase besar, dan dokumen berukuran masif tanpa cepat kehilangan konteks.
Bagi pengembang dan pengguna enterprise, kemampuan ini menjadi penting karena banyak pekerjaan AI terhenti saat model tidak mampu mempertahankan detail dari input panjang. Dengan konteks sebesar itu, Gemini 3.5 diarahkan untuk lebih cocok dipakai dalam kebutuhan produksi.
Google juga menyebut Gemini 3.5 memakai model thinking atau reasoning dengan beberapa tingkat kemampuan berpikir, dari minimal hingga tinggi. Setiap tingkat memiliki biaya tersendiri, sehingga pengguna bisa menyesuaikan kualitas respons dan efisiensi biaya sesuai kebutuhan.
Multimodal disiapkan sebagai fondasi, bukan pelengkap
Gemini 3.5 dilatih dengan pemahaman native terhadap beragam input. Model ini dapat memproses teks, gambar, video, audio, grafik, dan format lain dalam satu kerangka penalaran.
Kemampuan itu didukung hasil benchmark yang kuat. Gemini 3.5 mencetak 84,2 persen pada benchmark CharXiv untuk penalaran dan interpretasi, serta 83,6 persen pada MMMU-Pro untuk pemahaman multimodal tingkat lanjut.
Angka tersebut menunjukkan bahwa Google ingin menempatkan multimodal sebagai fondasi utama. Artinya, model ini diharapkan mampu bekerja lintas format data secara lebih natural dalam tugas analisis maupun pembuatan konten.
Lebih cepat, lebih terhubung, dan lebih siap dipakai luas
Google juga menyoroti Gemini 3.5 Flash sebagai model yang menawarkan kecerdasan mendekati versi Pro, tetapi dengan biaya yang jauh lebih rendah. Meski lebih efisien, model ini tetap membawa kemampuan multimodal, kesadaran konteks, dan integrasi platform.
Efisiensi itu penting untuk penggunaan skala besar, terutama saat AI dipakai dalam aplikasi yang butuh respons cepat. Kombinasi performa dan biaya yang lebih rendah memberi ruang bagi adopsi yang lebih luas di lingkungan bisnis.
Dari sisi konektivitas, Gemini 3.5 terhubung dengan Google Search grounding, Google Maps, eksekusi kode, dan URL context. Integrasi ini ditujukan agar respons yang dihasilkan lebih lengkap dan lebih akurat.
Google juga membuka koneksi ke platform pihak ketiga seperti Shopify, Box, dan Databricks. Dukungan ini memperluas potensi otomasi untuk kebutuhan bisnis dan enterprise, terutama pada alur kerja yang melibatkan data, dokumen, toko online, dan analitik.
Masih ada terjemahan suara dan video generatif
Di luar coding dan penggunaan enterprise, Google memamerkan kemampuan terjemahan suara langsung secara real time dalam lebih dari 70 bahasa. Dalam demonstrasi di I/O 2026, sistem ini juga berupaya mempertahankan nada, tempo, dan pitch pembicara secara natural.
Fitur tersebut menunjukkan bahwa Gemini 3.5 juga diarahkan untuk pengalaman komunikasi yang lebih cair. Terjemahan tidak hanya berfokus pada akurasi bahasa, tetapi juga pada nuansa penyampaian suara.
Google turut memperkenalkan model pembuatan video bernama Omni di dalam ekosistem Gemini 3.5. Model ini disebut dapat mengubah prompt sederhana maupun kompleks menjadi keluaran video bergaya sinematik.
Dengan rangkaian kemampuan itu, Gemini 3.5 tampil sebagai paket yang menonjolkan otonomi kerja, pemahaman konteks panjang, dan kecakapan multimodal dalam satu lini produk. Google menyatakan daftar fitur ini masih akan bertambah seiring pengumuman lanjutan.
