Biaya per Token Menggeser Peta AI, Dari GPU Mahal ke Mesin Efisiensi

Add on Google

Industri kecerdasan buatan mulai bergeser dari sekadar membandingkan harga perangkat keras atau performa komputasi mentah. Kini, biaya per token muncul sebagai patokan yang dinilai lebih relevan untuk melihat efisiensi, profitabilitas, dan skala layanan AI.

Perubahan ini mencerminkan cara pusat data modern bekerja. Menurut NVIDIA, pusat data telah berkembang menjadi semacam pabrik token AI, sehingga ukuran keberhasilan tidak lagi berhenti pada FLOPS per dolar, melainkan pada berapa banyak token yang bisa dihasilkan dengan biaya serendah mungkin.

Biaya per token jadi ukuran yang lebih nyata

Dalam praktiknya, biaya per token memberi gambaran yang lebih utuh tentang kinerja infrastruktur AI. Ukuran ini mencakup gabungan perangkat keras, perangkat lunak, jaringan, dan tingkat pemanfaatan sistem dalam satu metrik yang dekat dengan output layanan AI.

Pendekatan ini juga lebih mudah dikaitkan dengan kebutuhan bisnis. Saat perusahaan menjalankan layanan generative AI, efisiensi tidak lagi hanya ditentukan oleh seberapa kuat GPU yang dipakai, tetapi oleh seberapa murah sistem itu memproduksi token sebagai hasil utama.

Perbedaan Hopper dan Blackwell menunjukkan lompatan efisiensi

NVIDIA menampilkan perbandingan antara GPU generasi Hopper dan Blackwell untuk menjelaskan perubahan tersebut. Hopper disebut mampu menghasilkan sekitar 90 token per detik per GPU dengan biaya sekitar USD4,20 per juta token.

Di sisi lain, Blackwell mencatat sekitar 6.000 token per detik per GPU dengan biaya hanya USD0,12 per juta token. Walau harga sewa GPU Blackwell lebih tinggi, efisiensi energi dan output token yang jauh lebih besar membuat biaya operasional turun hingga 35 kali lipat.

Optimisasi teknis ikut menekan biaya

NVIDIA juga menyoroti sejumlah teknik yang membantu menurunkan biaya token. Beberapa di antaranya adalah penggunaan presisi FP4, speculative decoding, multi-token prediction, dan offloading KV-cache.

Kombinasi teknik itu membuat proses generasi token berjalan lebih efisien. Dampaknya, penyedia layanan dapat memaksimalkan output tanpa harus menaikkan biaya secara sebanding.

Dampak bagi cloud partner dan bisnis AI

Sejumlah cloud partner seperti CoreWeave, Nebius, Nscale, dan Together AI disebut mulai mengadopsi Blackwell. Langkah ini ditujukan untuk menghadirkan layanan AI dengan biaya token serendah mungkin.

Bagi perusahaan, pergeseran ini membuka peluang memperluas layanan AI dengan margin yang lebih sehat. Dalam konteks yang lebih luas, biaya per token berpotensi menjadi standar baru dalam menilai total cost of ownership atau TCO untuk infrastruktur AI.

Arah baru penilaian infrastruktur AI

Jika sebelumnya perusahaan banyak berfokus pada harga GPU atau metrik komputasi, kini perhatian mulai berpindah ke harga per token yang langsung terkait dengan hasil layanan. Perubahan ini membuat evaluasi infrastruktur AI menjadi lebih dekat dengan kebutuhan operasional dan bisnis yang sesungguhnya.

Dengan pusat data yang makin diposisikan sebagai pabrik token, biaya per token tampak semakin kuat sebagai acuan utama. Di masa depan, ukuran ini bisa menjadi dasar penting untuk menilai seberapa efisien sebuah sistem AI menghasilkan layanan dalam skala besar.