Yann LeCun mendorong taruhan besar senilai $1 billion untuk mengembangkan Joint Embedding Predictive Architecture, atau JEPA, sebagai alternatif terhadap dominasi large language models. Gagasan utamanya sederhana tetapi radikal: kecerdasan buatan tidak cukup hanya belajar dari pola bahasa, melainkan harus memahami dunia fisik secara lebih nyata.
Taruhan ini menarik perhatian karena LeCun secara terbuka menilai model seperti seri GPT milik OpenAI memiliki batas mendasar. Menurutnya, sistem yang hanya memprediksi kata berikutnya dapat terlihat canggih, tetapi belum benar-benar memahami sebab-akibat, gerak, dan dinamika dunia nyata.
Mengapa LLM dinilai belum cukup
Large language models telah mendorong lonjakan kemampuan AI dalam beberapa tahun terakhir. Namun LeCun menilai pendekatan itu bertumpu pada pencocokan pola statistik dalam bahasa, bukan pada pemahaman yang terikat pada realitas.
Dari sudut pandang itu, masalah seperti halusinasi menjadi konsekuensi yang sulit dihindari. Model dapat menghasilkan jawaban yang terdengar meyakinkan, tetapi keliru atau bahkan dibuat-buat karena tidak berangkat dari pengetahuan yang benar-benar terikat pada dunia fisik.
Keterbatasan lain muncul saat AI diminta merencanakan tindakan atau berinteraksi dengan lingkungan nyata. Sistem berbasis bahasa dinilai tidak cukup kuat untuk memahami objek, pergerakan, posisi, atau hubungan sebab-akibat yang dibutuhkan dalam pengambilan keputusan di dunia nyata.
LeCun juga menyoroti soal diminishing returns dari pendekatan scaling. Menambah ukuran model dinilai tidak selalu menghasilkan lompatan kemampuan yang sebanding, sehingga memunculkan pertanyaan tentang efisiensi dan keberlanjutan jalur pengembangan LLM.
Apa yang ditawarkan JEPA
JEPA dibangun dari asumsi yang berbeda. Alih-alih memusatkan perhatian pada prediksi token atau kata, arsitektur ini berupaya memprediksi representasi abstrak dari dunia fisik.
Pendekatan itu disebut terinspirasi dari cara manusia belajar sejak dini. Bayi memahami lingkungan bukan dengan membaca miliaran kalimat, tetapi dengan mengamati, bereaksi, dan membangun pemahaman dari interaksi dengan dunia di sekitarnya.
Karena itu, JEPA bertumpu pada data video mentah dalam skala besar. Dengan pelatihan dari video, bahkan disebut berpotensi melampaui satu juta jam, sistem diharapkan membangun model internal tentang bagaimana dunia bekerja.
Fokus pada video mentah ini penting karena memberi jalur belajar yang lebih dekat ke kenyataan fisik. AI tidak hanya melihat label atau instruksi, tetapi mengamati perubahan, gerak, dan konsekuensi dari peristiwa yang berlangsung dari waktu ke waktu.
LeCun melihat pendekatan ini sebagai jalan menuju generalisasi yang lebih kuat. Sistem yang memahami representasi abstrak dunia diyakini dapat beradaptasi ke banyak tugas dengan retraining yang lebih minimal dibanding model yang sangat bergantung pada pola bahasa.
Enam komponen yang jadi fondasi
JEPA dirancang secara modular lewat enam komponen yang saling terhubung. Struktur ini dimaksudkan agar sistem lebih dinamis, adaptif, dan dapat diskalakan ke beragam lingkungan serta tugas.
Komponen pertama adalah Configurator. Bagian ini menetapkan prioritas spesifik sesuai tugas agar sistem fokus pada sasaran yang relevan dan bisa menyesuaikan kebutuhan yang berubah.
Komponen berikutnya adalah Perception Module. Fungsinya mengamati dan menafsirkan data dari lingkungan sebagai dasar untuk proses pemahaman dan keputusan.
Di pusat sistem ada World Model. Modul ini bertugas mensimulasikan dan memprediksi kejadian mendatang berdasarkan representasi dunia fisik yang telah dipelajari.
Lalu ada Cost Module yang mengevaluasi tindakan-tindakan yang mungkin diambil. Tujuannya memilih langkah yang paling layak dan efisien sebelum keputusan benar-benar dijalankan.
Setelah itu, Actor mengeksekusi rencana yang dianggap paling efektif. Sementara Short-Term Memory menjaga jejak tindakan sebelumnya dan konteks yang dibutuhkan agar sistem tetap konsisten saat menghadapi lingkungan yang berubah.
Struktur modular inilah yang disebut menjadi salah satu pembeda penting dari LLM tradisional. Dengan susunan seperti itu, JEPA diarahkan untuk lebih mudah berpindah tugas tanpa harus dilatih ulang secara besar-besaran.
Bukan sekadar model baru, tetapi perubahan arah
LeCun memosisikan JEPA bukan hanya sebagai teknologi alternatif, melainkan sebagai pergeseran filosofi dalam AI. Jika LLM mengejar optimalisasi sistem berbasis bahasa, JEPA mengejar pemahaman tentang posisi, gerak, dan hubungan sebab-akibat di dunia nyata.
Perdebatan ini menyentuh pertanyaan besar di industri AI. Apakah kecerdasan sejati bisa dicapai hanya dengan memperbesar model bahasa, atau justru membutuhkan paradigma baru yang berangkat dari representasi yang lebih terikat pada realitas.
Dalam kerangka itu, grounded representations menjadi istilah kunci. LeCun berpendapat AI membutuhkan representasi yang tertambat pada dunia nyata, bukan sekadar simbol dan pola linguistik, agar dapat berkembang melampaui keterbatasan model bahasa.
Tantangan yang tidak kecil
Meski menjanjikan, pengembangan JEPA membawa beban teknis yang berat. Memodelkan dinamika dunia nyata membutuhkan komputasi yang sangat besar, dan ini bisa menjadi tantangan serius dalam skala pengembangan.
Kompleksitas sistemnya juga tinggi. Membangun AI yang dapat mensimulasikan serta memprediksi interaksi fisik secara akurat jauh lebih rumit daripada sekadar mengoptimalkan prediksi token.
Karena itu, keberhasilan JEPA belum bisa dianggap pasti. Namun dorongan dana $1 billion dan reputasi LeCun sebagai peraih Turing Award membuat proyek ini menjadi salah satu pertaruhan paling penting dalam perdebatan masa depan AI.
Jika pendekatan ini berhasil, arah riset AI bisa bergeser dari sistem yang unggul dalam bahasa menuju sistem yang lebih mampu memahami dan bertindak di dunia fisik. Itu sebabnya langkah LeCun tidak hanya dibaca sebagai kritik terhadap LLM, tetapi juga sebagai upaya membangun fondasi baru bagi kecerdasan buatan.
Source: www.geeky-gadgets.com





