DeepSeek mengklaim bisa memangkas waktu respons AI hingga 85 persen lewat pendekatan baru bernama DSpark. Yang membuat klaim ini mencolok adalah peningkatan tersebut disebut bisa dicapai tanpa bergantung pada chip flagship.
Di industri AI, kecepatan inferensi dan biaya komputasi menjadi dua tekanan terbesar saat ini. Bagi perusahaan yang kesulitan mengakses GPU mutakhir, terutama di China, efisiensi seperti ini bisa berarti kapasitas layanan yang jauh lebih besar tanpa belanja infrastruktur yang melonjak.
DSpark dan cara kerjanya
DeepSeek memperkenalkan DSpark sebagai framework speculative decoding untuk keluarga model V4. Sistem ini dirancang untuk membuat inferensi AI, atau waktu yang dibutuhkan model untuk merespons permintaan pengguna, berjalan lebih cepat.
Perusahaan itu menegaskan DSpark bukanlah peningkatan kemampuan dasar model. Fokusnya ada pada efisiensi penyajian respons, bukan membuat model menjadi lebih pintar atau lebih mampu secara umum.
Dalam proses bahasa biasa, teks dihasilkan token demi token. Cara ini bisa lambat, terutama saat jawaban panjang, karena setiap token membutuhkan komputasi tersendiri.
DSpark mencoba memangkas beban itu lewat speculative decoding. Model draft yang lebih ringan lebih dulu mengusulkan respons, lalu model utama memverifikasinya dalam batch alih-alih membangun semuanya dari nol.
Jika usulan model kecil benar, sistem dapat melaju lebih cepat. Jika meleset, proses kembali ke jalur biasa, tetapi DeepSeek menyebut sebagian besar token relatif mudah diprediksi.
DeepSeek juga mengatakan seluruh proses berlangsung di GPU tanpa memindahkan pekerjaan ke CPU. Hal ini penting karena perpindahan beban komputasi sering menambah latensi dan mengurangi efisiensi.
Selain itu, DSpark memakai metode semi-autoregressive generation. Dengan cara ini, sistem tidak selalu menghasilkan satu token setiap langkah, melainkan bisa memproduksi potongan kecil token sekaligus agar output keluar lebih cepat.
Kapasitas yang disebut naik 85 persen
Untuk menggambarkan dampaknya, DeepSeek memberi contoh sederhana. Jika satu GPU sebelumnya hanya mampu menangani 100 permintaan pengguna, kapasitas itu disebut bisa naik menjadi sekitar 185 permintaan dengan DSpark.
Klaim tersebut menarik perhatian karena beban komputasi memang menjadi masalah utama di industri AI. Pusat data membutuhkan ribuan GPU paling canggih untuk menjalankan model dalam skala besar, sementara permintaan layanan AI terus tumbuh.
Di saat yang sama, biaya penggunaan token juga ikut menjadi sorotan. DeepSeek menyinggung kondisi ketika perusahaan seperti Uber dan Walmart membatasi penggunaan token AI oleh karyawan karena ongkosnya terus meningkat.
Jika efisiensi seperti ini terbukti konsisten, perusahaan dapat meningkatkan layanan tanpa harus memperluas komputasi secara agresif. Itu menjadi nilai penting ketika hardware mahal dan akses ke chip kelas atas tidak selalu mudah.
Terbuka untuk model lain
DeepSeek menyebut riset DSpark sudah dibuka ke publik melalui GitHub dan HuggingFace. Proyek itu juga merupakan kerja sama dengan Peking University, yang menunjukkan pendekatan ini ingin diuji dan dipakai lebih luas.
Perusahaan tersebut mengatakan DSpark sudah diuji pada beberapa model open-source lain, termasuk Gemma dari Google DeepMind dan Qwen dari Alibaba. Uji lintas model ini menandakan potensi penerapan yang tidak terbatas pada ekosistem DeepSeek sendiri.
Pada April tahun ini, DeepSeek lebih dulu merilis V4 Preview sebagai opsi yang diklaim hemat biaya untuk menangani input dengan konteks 1 juta. Saat itu, V4-Pro disebut ditujukan untuk performa lebih tinggi, sedangkan V4-Flash diposisikan sebagai pilihan yang lebih cepat dan lebih murah.
DSpark sejalan dengan arah tersebut karena tetap menempatkan performa, kecepatan, dan biaya sebagai tiga hal yang harus diseimbangkan. Di tengah kompetisi model AI yang makin mahal, efisiensi penyajian menjadi sama pentingnya dengan kemampuan model itu sendiri.
Persaingan mempercepat output AI
DeepSeek bukan satu-satunya pemain yang mengejar output lebih cepat. Awal bulan ini, tim AI Xiaomi mengatakan model MiMo-V2.5-Pro-UltraSpeed telah mencapai kecepatan output lebih dari 1.000 token per detik.
Persaingan itu menunjukkan bahwa inferensi kini menjadi medan penting dalam pengembangan AI. Dalam praktik bisnis, model yang lebih cepat dan lebih hemat sering kali sama berharganya dengan model yang lebih kuat.
Source: www.indiatoday.in






