iPhone 17 Pro Jalankan AI 400 Miliar Parameter Secara Lokal, Mungkin tapi Terlalu Lambat?

Qoo Media

24/03/2026

iPhone 17 Pro Jalankan AI 400 Miliar Parameter Secara Lokal, Mungkin tapi Terlalu Lambat?

iPhone 17 Pro dilaporkan mampu menjalankan model AI berukuran 400 miliar parameter secara lokal di perangkat. Temuan ini menarik perhatian karena model sebesar itu umumnya membutuhkan memori lebih dari 200GB hanya untuk dimuat.

Namun, kemampuan tersebut belum berarti AI raksasa itu siap dipakai secara nyaman di ponsel. Uji coba yang beredar justru menunjukkan adanya kompromi besar pada kecepatan, efisiensi, dan pengalaman penggunaan sehari-hari.

Demo AI 400B di iPhone 17 Pro

Informasi ini berasal dari demonstrasi proyek open-source Flash-MoE yang dibagikan pengembang @anemll. Dalam demonstrasi itu, iPhone 17 Pro disebut berhasil menjalankan model bahasa 400B secara lokal, meski perangkat ini hanya memiliki RAM 12GB.

Secara teknis, situasi ini terdengar tidak lazim. Model dengan skala 400 miliar parameter biasanya memerlukan memori ratusan gigabita, jauh di atas kapasitas RAM ponsel kelas premium saat ini.

Kunci utamanya bukan memuat seluruh model ke RAM sekaligus. Sistem justru mengambil bagian model dari penyimpanan saat dibutuhkan, lalu memproses hanya komponen tertentu yang relevan untuk setiap tugas.

Pendekatan ini sejalan dengan teknik Mixture of Experts atau MoE. Dalam arsitektur ini, hanya sebagian kecil “expert” yang aktif pada satu waktu, sehingga beban komputasi dan kebutuhan memori aktif bisa ditekan.

Mengapa ini bisa berjalan meski RAM hanya 12GB

Pada model AI konvensional, seluruh bobot model sering kali perlu tersedia di memori agar inferensi berjalan lancar. Itu sebabnya model besar biasanya lebih cocok dijalankan di server dengan RAM sangat besar dan bandwidth memori tinggi.

Dalam eksperimen di iPhone 17 Pro, hambatan itu diakali dengan mekanisme streaming data dari storage. Artinya, perangkat tidak menyimpan semua parameter di RAM secara bersamaan, melainkan memanggil potongan yang diperlukan sesuai urutan proses.

Cara ini memang membuka peluang baru untuk komputasi AI di perangkat. Akan tetapi, ada biaya yang harus dibayar, yaitu latensi tinggi karena akses data dari penyimpanan jauh lebih lambat dibanding akses langsung dari RAM.

Apple sendiri dalam beberapa tahun terakhir konsisten memperkuat kemampuan pemrosesan AI on-device melalui Neural Engine, CPU, dan GPU di chip seri A. Tren industri juga bergerak ke arah yang sama karena pemrosesan lokal menawarkan keunggulan privasi dan mengurangi ketergantungan pada cloud.

Kendala terbesar: sangat lambat

Berdasarkan demo yang dikutip dari sumber tersebut, model 400B itu hanya menghasilkan sekitar 0,6 token per detik. Dalam praktiknya, kecepatan ini berarti pengguna bisa menunggu beberapa detik hanya untuk melihat satu kata muncul.

Kecepatan seperti itu belum layak untuk penggunaan umum. Bahkan permintaan sederhana pun akan terasa lambat, terutama jika dibandingkan dengan chatbot berbasis cloud yang mampu merespons jauh lebih cepat.

Selain lambat, beban kerja seperti ini juga berpotensi menguras baterai. Proses inferensi model besar secara terus-menerus dapat meningkatkan konsumsi daya dan suhu perangkat, meski aspek ini belum dijabarkan rinci dalam demonstrasi awal.

Apa arti eksperimen ini bagi masa depan AI di ponsel

Nilai utama dari uji coba ini bukan pada kegunaan praktis saat ini. Nilainya ada pada bukti bahwa perangkat mobile mulai mampu menyentuh wilayah komputasi yang sebelumnya hanya identik dengan server dan pusat data.

Eksperimen semacam ini menunjukkan bahwa batas kemampuan ponsel terus bergeser. Jika optimasi software, arsitektur model, kecepatan storage, dan kapasitas memori berkembang, model yang saat ini terasa mustahil bisa menjadi lebih realistis di generasi berikutnya.

Untuk saat ini, model yang lebih kecil tetap menjadi pilihan paling masuk akal di perangkat. Model berukuran kecil hingga menengah bisa memberikan respons lebih cepat, konsumsi daya lebih rendah, dan pengalaman pengguna yang jauh lebih seimbang.

Poin penting dari demo iPhone 17 Pro

Model yang dijalankan berukuran 400 miliar parameter.
Sumber demo berasal dari proyek open-source Flash-MoE.
Pengembang yang membagikan demo adalah @anemll di X.
Kebutuhan memori model sebesar itu biasanya melampaui 200GB.
iPhone 17 Pro yang digunakan disebut memiliki RAM 12GB.
Kecepatan inferensi yang terlihat hanya sekitar 0,6 token per detik.

Fakta-fakta ini menegaskan bahwa yang terjadi bukan keajaiban hardware semata. Ini adalah hasil kombinasi rekayasa software, pemanggilan bobot model dari storage, dan efisiensi arsitektur MoE.

Dalam konteks industri, pendekatan seperti ini juga relevan dengan dorongan menuju AI privat di perangkat. Pemrosesan lokal memungkinkan data sensitif tetap berada di ponsel, yang menjadi nilai penting di tengah meningkatnya perhatian terhadap keamanan dan privasi digital.

Meski begitu, jarak antara “bisa dijalankan” dan “nyaman dipakai” masih sangat lebar. iPhone 17 Pro berhasil menunjukkan kemungkinan baru, tetapi demo ini sekaligus menegaskan bahwa model AI superbesar di ponsel masih berada pada tahap eksperimen teknis, bukan fitur yang siap menggantikan solusi AI praktis yang ada sekarang.

Source: www.gizmochina.com