DeepSeek Janjikan AI 85 Persen Lebih Cepat, Tanpa Perlu Chip Flagship

Add on Google

DeepSeek mengklaim telah menemukan cara untuk mempercepat respons AI hingga 85 persen tanpa harus mengandalkan chip paling canggih. Bagi industri yang sedang tertekan oleh mahalnya komputasi dan terbatasnya akses ke GPU mutakhir, klaim ini langsung menyorot titik masalah yang paling krusial.

Bagi perusahaan AI di China, isu itu bahkan lebih mendesak karena chip AI kelas atas dari Nvidia sulit diakses akibat sanksi Amerika Serikat. Dalam konteks itu, pendekatan baru dari DeepSeek berpotensi menjadi cara untuk meningkatkan kapasitas layanan tanpa belanja infrastruktur besar-besaran.

DeepSeek memperkenalkan DSpark, sebuah framework speculative decoding untuk keluarga model andalannya, V4. Perusahaan itu menyebut sistem ini bisa membuat inferensi AI, atau waktu yang dibutuhkan model untuk merespons permintaan pengguna, menjadi jauh lebih cepat.

Percepatan ini tidak diklaim sebagai peningkatan kemampuan dasar model. DeepSeek menegaskan DSpark ditujukan untuk efisiensi penyajian respons, bukan untuk membuat model menjadi lebih pintar atau lebih mampu secara umum.

Cara kerjanya berbeda dari proses biasa

Dalam model bahasa, teks biasanya dihasilkan satu token demi satu token. Proses ini bisa menjadi lambat dan boros saat jawaban panjang, padahal token adalah unit dasar yang menentukan seberapa banyak komputasi dipakai.

DSpark mencoba memangkas hambatan itu lewat speculative decoding. DeepSeek menjelaskan bahwa model draft yang lebih ringan lebih dulu mengusulkan respons, lalu model utama memverifikasinya dalam batch alih-alih membuat semuanya dari nol.

Dengan kata lain, model kecil melakukan pekerjaan awal dan model besar bertugas memeriksa hasilnya. Jika usulan model kecil benar, sistem bisa melompat ke depan, tetapi jika meleset, proses akan kembali ke jalur biasa.

DeepSeek menyebut sebagian besar token relatif mudah diprediksi. Karena itu, sistem sering bisa bergerak lebih cepat tanpa harus menunggu model besar membangun setiap token satu per satu.

Perusahaan itu juga mengatakan seluruh proses berlangsung di GPU, tanpa memindahkan pekerjaan ke CPU. Hal ini penting karena perpindahan beban komputasi sering menambah latensi dan mengurangi efisiensi.

Selain itu, DSpark memakai metode semi-autoregressive generation. Alih-alih selalu menghasilkan satu token setiap langkah, sistem dapat memproduksi potongan kecil token sekaligus agar output keluar lebih cepat.

Klaim efisiensi yang menarik perhatian

DeepSeek memberi gambaran sederhana untuk menunjukkan dampak pendekatan ini. Jika sebelumnya satu GPU hanya mampu menangani 100 permintaan pengguna, dengan DSpark kapasitasnya disebut bisa naik menjadi sekitar 185 permintaan.

Klaim seperti ini menarik karena beban komputasi menjadi masalah utama di industri AI. Pusat data membutuhkan ribuan GPU paling canggih untuk menjalankan model dalam skala besar, sementara permintaan layanan AI terus tumbuh.

Di saat yang sama, biaya penggunaan token juga menjadi perhatian banyak perusahaan. DeepSeek menyoroti kondisi ketika perusahaan seperti Uber dan Walmart membatasi penggunaan token AI oleh karyawan karena ongkosnya terus meningkat.

Dalam situasi itu, cara untuk memeras lebih banyak kinerja dari perangkat keras yang sama menjadi sangat berharga. Jika klaim DeepSeek terbukti konsisten di lapangan, perusahaan dapat meningkatkan layanan tanpa ekspansi komputasi yang terlalu agresif.

Tidak hanya untuk model DeepSeek

DeepSeek menyatakan riset DSpark telah dibuka ke publik melalui GitHub dan HuggingFace. Proyek itu merupakan kerja sama dengan Peking University, yang memberi sinyal bahwa pendekatan ini ingin diuji dan dipakai lebih luas.

Perusahaan itu juga mengatakan DSpark sudah diuji pada beberapa model open-source lain. Di antaranya ada Gemma dari Google DeepMind dan Qwen dari Alibaba, yang menunjukkan potensi penerapan di luar ekosistem DeepSeek sendiri.

Langkah ini penting karena memperluas relevansi teknologi tersebut. Jika peningkatan serupa bisa dicapai pada model yang berbeda, DSpark tidak hanya menjadi fitur internal, tetapi juga pendekatan efisiensi yang lebih umum untuk industri.

Pada April tahun ini, DeepSeek lebih dulu merilis V4 Preview sebagai opsi yang diklaim hemat biaya untuk menangani input dengan konteks 1 juta. DeepSeek saat itu menyebut V4-Pro ditujukan untuk performa lebih tinggi, sementara V4-Flash dirancang sebagai pilihan yang lebih cepat dan lebih murah.

Kemunculan DSpark sejalan dengan posisi itu. Fokusnya tetap pada upaya menyeimbangkan performa, kecepatan, dan biaya di tengah persaingan pengembangan model yang makin mahal.

Persaingan mempercepat output AI makin ketat

DeepSeek bukan satu-satunya perusahaan yang mengejar percepatan respons model. Awal bulan ini, tim AI Xiaomi mengatakan model MiMo-V2.5-Pro-UltraSpeed miliknya telah mencapai kecepatan output lebih dari 1.000 token per detik, yang disebut termasuk tercepat di industri.

Persaingan itu menunjukkan bahwa kecepatan inferensi kini menjadi medan penting selain kemampuan model. Dalam praktik bisnis, model yang lebih cepat dan lebih hemat sering sama berharganya dengan model yang lebih kuat, terutama ketika perusahaan harus mengendalikan biaya komputasi yang terus membesar.