Xiaomi kini bergerak jauh melampaui citra lamanya sebagai pembuat ponsel murah dan perangkat rumah pintar. Dalam sekitar satu setengah tahun terakhir, perusahaan ini membangun rangkaian AI yang lengkap, dari model bahasa besar sampai agen otonom yang bisa menjalankan tugas di ponsel.
Yang membuat langkah ini sulit diabaikan adalah skalanya. Xiaomi tidak hanya menambahkan fitur AI ke produk yang sudah ada, tetapi juga menyiapkan fondasi teknologi untuk pengembang, pengguna ponsel, rumah pintar, dan mobil dalam satu ekosistem.
Dari model kecil ke mesin penalaran besar
Perjalanan AI Xiaomi dimulai dengan MiMo-7B pada April 2025. Model ini dirancang untuk penalaran dan coding, bukan sekadar percakapan umum, dan menjadi pintu masuk Xiaomi ke persaingan LLM open-source.
Meski hanya 7 miliar parameter, Xiaomi mengklaim MiMo-7B tampil jauh di atas kelasnya. Versi reinforcement learning model ini disebut meraih 95,8% di MATH-500 dan melampaui OpenAI o1-mini serta Alibaba Qwen-32B-Preview di AIME 2024 dan 2025.
MiMo-7B dilatih dengan 200 miliar token penalaran yang dikurasi khusus, dengan total proses mencapai 25 triliun token dalam tiga fase. Model itu juga dirilis dengan lisensi MIT dan tersedia di Hugging Face.
Lompatan performa, efisiensi, dan model agen
Pada Desember 2025, Xiaomi meluncurkan MiMo-V2-Flash dengan 309 miliar parameter, tetapi hanya sekitar 15 miliar parameter aktif setiap kali digunakan. Desain Mixture-of-Experts membuat model ini menonjol karena menggabungkan kecepatan dan efisiensi.
Xiaomi menyebut MiMo-V2-Flash masuk dua besar model open-source di benchmark penalaran, menyamai GPT-5 dan Claude 4.5 Sonnet di SWE-Bench Verified, serta mampu menghasilkan 150 token per detik. Biaya inferensinya juga diklaim hanya 2,5% dari harga Claude.
Teknik Multi-Token Prediction ikut dipakai untuk membuat proses generasi dan verifikasi token lebih efisien. Xiaomi bahkan menetapkan tarif API $0.1 per juta token input dan sempat memberi akses gratis pada periode peluncuran terbatas.
Ambisi itu naik lagi saat MiMo-V2-Pro hadir pada Maret 2026. Model ini memiliki lebih dari 1 triliun parameter total, 42 miliar parameter aktif per pass, dan jendela konteks 1 juta token.
Xiaomi menyebut MiMo-V2-Pro dirancang untuk tugas agentic, yaitu pekerjaan kompleks yang perlu perencanaan dan eksekusi bertahap tanpa arahan manusia terus-menerus. Sebelum diumumkan resmi, model ini sempat muncul anonim di OpenRouter dengan nama Hunter Alpha dan memproses lebih dari 1,5 triliun token.
Omnimodal, suara, dan rumah pintar
Setelah itu, Xiaomi merilis MiMo-V2-Omni dan MiMo-V2-TTS untuk memperluas kemampuan ke teks, gambar, audio, video, dan suara sintetis. Pada akhir April 2026, kemampuan ini disatukan lagi ke dalam MiMo-V2.5 dan MiMo-V2.5-Pro.
MiMo-V2.5-Pro membawa 1,02 triliun parameter dan menangani teks, gambar, audio, serta video dalam satu arsitektur. Untuk tugas kompleks, model ini berjalan di kisaran 60 hingga 80 token per detik, sedangkan MiMo-V2.5 yang lebih ringan ditujukan untuk penggunaan harian dengan kecepatan 100 hingga 150 token per detik.
Menurut Artificial Analysis, MiMo-V2.5-Pro sempat menjadi model open-source nomor satu dunia untuk kemampuan agentic saat diluncurkan. Xiaomi juga menghapus biaya tambahan untuk konteks penuh 1 juta token dan mereset kredit pengguna agar lebih ramah bagi pengembang.
Pada awal Juni 2026, Xiaomi memperkenalkan MiMo Code, agen coding berbasis terminal yang dibangun di atas MiMo-V2.5. Agen ini memiliki memori persisten untuk menjaga keputusan tetap terlacak dalam proyek jangka panjang.
AI suara, visi, dan fitur konsumen
Di sisi visual, Xiaomi merilis MiMo-VL dan varian rumah MiMo-VL-Miloco-7B. Model Miloco dirancang memahami lingkungan rumah, termasuk mengenali gestur seperti jempol, tanda OK, peace sign, dan telapak tangan terbuka.
Model itu juga dapat mengidentifikasi aktivitas rumah tangga seperti menonton TV, berolahraga, atau membaca. Xiaomi menggabungkannya dengan supervised fine-tuning dan reinforcement learning agar tetap cocok untuk skenario rumah tanpa kehilangan kemampuan umum.
Untuk audio, Xiaomi merilis MiDashengLM-7B pada Agustus 2025. Model ini dilatih dengan dataset 38.662 jam dan memakai pendekatan general audio caption untuk memahami musik, suara lingkungan, emosi pembicara, dan konteks akustik.
MiDashengLM-7B dibangun di atas Qwen2.5-Omni-7B dari Alibaba dan sudah dipakai di kendaraan listrik serta perangkat rumah pintar Xiaomi. Model ini juga dirilis dengan lisensi Apache 2.0 untuk penggunaan komersial.
Xiaomi turut menerbitkan MiMo-Audio, lalu encoder audionya diintegrasikan ke MiMo-V2.5 untuk menopang pengalaman omnimodal. Pada Mei 2026, tim next-gen Kaldi dari Xiaomi AI Lab merilis OmniVoice sebagai open-source untuk voice cloning text-to-speech zero-shot.
OmniVoice mendukung 646 bahasa dan dapat menyalin suara hanya dari beberapa detik audio referensi. Xiaomi menyebut pendekatan single-transformer yang dipakai memungkinkan pelatihan 100.000 jam data audio dalam satu hari dan inferensi hingga 40 kali kecepatan real-time dengan PyTorch.
Di level konsumen, Xiao AI dan HyperAI menjadi wajah paling terlihat dari strategi ini. Xiao AI yang sudah lama ada di ponsel, speaker pintar, dan wearable ditingkatkan lewat HyperOS 2 menjadi Super Xiao AI dengan memori konteks lebih baik, kontrol rumah pintar yang lebih cerdas, dan kemampuan membuat gambar dari teks.
HyperAI juga diperkenalkan secara global di MWC 2025 dan mulai hadir di Xiaomi 15 series. Paket fitur ini mencakup terjemahan real-time, bantuan menulis, pengenalan suara cerdas yang merangkum rekaman, serta penyuntingan foto AI, dengan Google Gemini dipakai sebagai backend untuk perangkat global.
miclaw, agen otonom yang menyasar ponsel
Bagian paling ambisius dari strategi Xiaomi adalah miclaw, agen AI otonom berbasis MiMo yang diumumkan pada Maret 2026 dan masih dalam closed beta. Agen ini tidak berhenti pada jawaban teks, tetapi bisa membuka aplikasi, menavigasi antarmuka, mengisi formulir, dan berinteraksi dengan alat sistem.
Xiaomi menyebut mekanismenya sebagai inference-execution loop, yakni AI merencanakan tindakan, mengeksekusi, memeriksa hasil, lalu melanjutkan sampai tugas selesai. miclaw juga memiliki memori kontekstual yang memadatkan interaksi lama sambil menjaga tujuan awal tetap utuh.
Agen ini dapat terhubung ke ekosistem rumah pintar dan mobil Xiaomi, dengan versi beta saat ini mendukung Xiaomi 17 series. Untuk privasi, Xiaomi mengatakan interaksi pengguna tidak dipakai melatih model AI, sementara data pribadi diproses secara real-time lewat pendekatan edge-cloud privacy computing.
Lei Jun pada Maret 2026 mengatakan Xiaomi akan menginvestasikan setidaknya $8.7 miliar ke AI dalam tiga tahun. Dengan belanja R&D tahunan yang diproyeksikan mencapai sekitar 40 miliar yuan pada 2026, Xiaomi juga menargetkan penyatuan chip, sistem operasi, dan model AI dalam satu perangkat.
Dampak awal strategi itu mulai terlihat di OpenRouter, tempat model-model Xiaomi disebut menangkap sekitar 21% dari seluruh traffic pada awal April 2026. Angka tersebut menunjukkan Xiaomi bukan lagi pemain tambahan, melainkan salah satu nama yang mulai memaksa rivalnya memperhitungkan ulang peta persaingan AI.
Source: www.gizmochina.com





