GLM-5.2 dari Zhipu AI mendadak menjadi sorotan di arena desain web AI setelah merebut posisi teratas dan menyalip Claude Fable 5. Model asal China ini kini memimpin leaderboard desain web HTML single-round untuk kategori non-agent di Design Arena.
Yang membuat pencapaiannya lebih menarik bukan hanya pergeseran peringkat, tetapi juga cara penilaiannya dilakukan. Design Arena memakai voting buta dari manusia, sehingga hasilnya lebih dekat pada selera visual, kegunaan, dan kualitas desain yang benar-benar terlihat pengguna.
Naik cepat di leaderboard desain web
Design Arena mengumumkan pada 19 Juni bahwa GLM-5.2 menempati posisi #1 di leaderboard tersebut. Dalam catatan platform itu, model ini mengungguli Claude Fable 5 sekaligus melewati versi Opus 4.6 dan 4.7.
Lompatan itu juga besar dibanding pendahulunya. Dari GLM-5.1, model baru ini naik lima peringkat dan mencatat skor Elo sekitar 1360 di arena kategori kode.
Apa yang membuat hasilnya menonjol
Keunggulan GLM-5.2 terlihat pada hasil halaman web yang dibangunnya. Tata letaknya cenderung rapi, memakai gambar dari CDN, dan didukung tipografi serta hierarki visual yang lebih enak dipandang.
Model ini juga dinilai kuat dalam penggunaan animasi halus yang membuat situs terasa lebih hidup. Design Arena mencatat kompatibilitasnya yang baik dengan Chart.js dan Three.js, dua library yang sering dipakai untuk visualisasi data dan elemen interaktif.
Dalam putaran terbaru, tingkat kemenangan GLM-5.2 dilaporkan naik sekitar 6 poin persentase. Kenaikan itu memperkuat kesan bahwa peningkatannya bukan sekadar kosmetik, melainkan benar-benar berpengaruh pada hasil yang dipilih pengguna.
Strategi teknis yang ikut mendukung
Ada pola teknis yang cukup mencolok pada desain yang dihasilkan GLM-5.2. Model ini sangat sering memakai Tailwind CSS, muncul pada 91% desain, serta Font Awesome pada 51% sesi.
Untuk pembanding, Fable 5 hanya menggunakan Tailwind CSS pada sekitar 57% sesinya. Perbedaan kebiasaan ini dinilai ikut menjelaskan celah praktis yang terlihat pada hasil desain masing-masing model.
Benchmark yang mengandalkan pilihan manusia
Metode evaluasi Design Arena memberi bobot besar pada preferensi manusia. Platform itu menyebut benchmark-nya sebagai arena crowdsourced besar untuk creative coding, tempat orang-orang memberikan suara secara buta terhadap desain buatan AI.
Pendekatan seperti ini berbeda dari pengujian sintetis yang hanya mengandalkan metrik otomatis. Dalam desain web, aspek seperti rasa visual, keterbacaan, penataan elemen, dan kenyamanan penggunaan memang lebih mudah ditangkap lewat penilaian manusia.
Design Arena juga menyebut telah mengumpulkan jutaan suara dari para kreator. Basis penilaian itu membuat leaderboard ini dipandang relevan untuk membaca performa model pada tugas yang dekat dengan kebutuhan dunia nyata.
Harga murah dan open-weights jadi pembeda besar
Selain performa, GLM-5.2 juga menonjol dari sisi biaya. API model ini disebut dibanderol sekitar $1.40 per satu juta token input dan $4.40 untuk output.
Biaya itu jauh di bawah Fable 5, yang disebut berada di kisaran $10 untuk input dan $50 untuk output. Selisih ini bisa sangat berarti bagi tim pengembang yang menjalankan beban kerja besar atau iterasi desain dalam jumlah tinggi.
GLM-5.2 juga hadir sebagai model open-weights dengan lisensi MIT. Artinya, tim dapat menjalankannya secara lokal dan tidak sepenuhnya bergantung pada layanan proprietary.
Model ini turut membawa context window 1 juta token. Kapasitas tersebut memberi ruang lebih luas untuk proyek panjang, instruksi besar, dan alur kerja yang lebih kompleks dalam satu sesi.
Implikasi untuk tim developer
Kemenangan GLM-5.2 menunjukkan bahwa persaingan model AI untuk desain web kini bergerak ke arah yang makin spesifik. Bukan hanya chatbot umum, tetapi juga kemampuan menghasilkan antarmuka yang siap dipakai, efisien, dan menarik secara visual.
Bagi banyak tim pengembangan, kombinasi performa tinggi, biaya lebih rendah, dan sifat terbuka membuat GLM-5.2 layak diperhitungkan. Claude Fable 5 masih menjadi pemain kuat, tetapi model baru ini menawarkan paket yang bisa mengusik pilihan tim developer.
