Saat AI Belajar dari AI, Internet Terancam Runtuh dalam Siklus Model Collapse

Add on Google

Kecerdasan buatan generatif makin cepat mengubah cara orang mencari jawaban di internet. Namun di balik kemudahan itu, peneliti dan pelaku industri mulai memperingatkan risiko besar saat model AI terus dilatih menggunakan konten buatan AI itu sendiri.

Risiko tersebut dikenal sebagai model collapse, yaitu penurunan kualitas model ketika data latihnya semakin dipenuhi keluaran sintetis. Dalam kondisi ini, jawaban AI bisa tetap terdengar meyakinkan, tetapi isinya makin dangkal, kurang beragam, dan lebih rentan mengulang kesalahan lama.

Apa itu model collapse

Model collapse terjadi saat sistem AI belajar dari hasil AI lain secara berulang. Proses ini sering diibaratkan seperti menyalin fotokopi dari fotokopi, di mana detail penting hilang sedikit demi sedikit pada setiap putaran.

Dalam jangka panjang, model tidak hanya kehilangan nuansa, tetapi juga cenderung menghasilkan pola yang seragam. Dampaknya paling terasa pada akurasi, orisinalitas, dan kemampuan model memahami kasus yang kompleks atau jarang muncul.

Istilah ini menjadi perhatian karena banyak model bahasa besar bergantung pada data internet dalam jumlah raksasa. Ketika internet makin dipenuhi teks sintetis, kumpulan data yang tersedia untuk pelatihan ikut berubah kualitasnya.

Internet berubah, sumber manusia melemah

Laporan yang dikutip Absolutely Agentic menyoroti tekanan besar pada platform berbasis kontribusi manusia. Stack Overflow, yang lama menjadi rujukan pemrogram, disebut mengalami penurunan volume pertanyaan hingga 78 persen.

Penurunan itu bukan sekadar angka trafik. Ketika pengguna lebih sering meminta jawaban instan dari chatbot, platform komunitas kehilangan percakapan baru yang selama ini menjadi sumber pengetahuan teknis yang kaya konteks.

Chegg juga menjadi contoh lain dari tekanan AI terhadap model bisnis lama. Perusahaan pendidikan itu disebut mengalami penyusutan nilai saham hingga 99 persen saat semakin banyak pelajar beralih ke alat AI untuk bantuan akademik.

Di sisi penerbit, tekanan datang dari ringkasan otomatis dan jawaban instan di hasil pencarian. Sejumlah publisher dilaporkan kehilangan trafik pencarian hingga sepertiga karena pengguna mendapat ringkasan duluan tanpa perlu membuka sumber asli.

Mengapa data manusia tetap penting

Model AI terlihat canggih karena mampu merangkum, menyusun ulang, dan memprediksi bahasa dengan sangat cepat. Namun kemampuan itu tetap bergantung pada kualitas data awal yang disediakan manusia, termasuk artikel, forum, buku, laporan, dan diskusi ahli.

Konten buatan manusia biasanya memuat konteks, pengalaman, perdebatan, dan koreksi yang berkembang secara alami. Unsur ini sulit digantikan oleh konten sintetis yang cenderung mengejar pola paling mungkin, bukan pemahaman paling dalam.

Jika pembuat konten profesional, pakar, dan komunitas kehilangan insentif ekonomi, pasokan data berkualitas juga ikut menurun. Siklus ini dapat menciptakan lingkaran umpan balik negatif bagi internet dan AI sekaligus.

Lingkaran masalah yang mulai terlihat

Ada beberapa tahap yang membuat risiko ini dinilai serius:

AI menjawab pertanyaan lebih cepat daripada platform sumber asli.
Trafik ke forum, media, dan layanan edukasi menurun.
Pendapatan platform dan kreator ikut turun.
Produksi konten manusia berkualitas berkurang.
Model AI makin banyak berlatih dari konten sintetis.

Saat siklus itu berjalan terus, internet berisiko dipenuhi informasi daur ulang. Kondisi tersebut dapat menghambat penemuan gagasan baru dan memperlambat lahirnya pengetahuan yang benar-benar segar.

Bukan hanya soal kualitas jawaban

Masalah ini juga terkait dengan stagnasi pengetahuan. AI sangat baik dalam menggabungkan informasi yang sudah ada, tetapi belum mampu menggantikan kreativitas, intuisi, dan lompatan ide dari manusia.

Karena itu, jawaban yang terlihat rapi belum tentu memperkaya pemahaman. Jika ekosistem digital terlalu bergantung pada ringkasan AI, ruang untuk diskusi mendalam dan sudut pandang berbeda bisa makin menyempit.

Solusi yang mulai dibahas

Sejumlah pendekatan mulai dikembangkan untuk menahan degradasi kualitas data. Beberapa di antaranya berfokus pada menjaga pasokan konten manusia, sementara yang lain mencoba mengurangi ketergantungan AI pada internet terbuka.

Berikut opsi yang paling sering dibahas:

Pendekatan	Fungsi utama
Platform berbasis komunitas	Menjaga diskusi autentik dan jawaban kontekstual
Model langganan	Mendukung konten orisinal dari penulis dan pakar
Data sintetis terkontrol	Menambah data latih dengan pengawasan ketat
Reinforcement learning	Melatih model agar lebih tangguh dan efisien

Reddit dan platform komunitas lain sering disebut masih kuat karena menawarkan percakapan manusia yang sulit ditiru penuh oleh AI. Di sisi lain, model langganan seperti layanan newsletter premium dinilai lebih mampu menopang produksi konten orisinal, meski memunculkan pertanyaan soal akses yang adil.

Penggunaan data sintetis juga tetap dipertimbangkan, tetapi bukan sebagai solusi bebas risiko. Tanpa kurasi yang ketat, data seperti ini justru dapat mempercepat penurunan mutu model.

Karena itu, perdebatan kini tidak lagi sekadar soal seberapa pintar AI menjawab. Fokusnya bergeser pada bagaimana menjaga internet tetap menjadi sumber pengetahuan manusia yang hidup, beragam, dan cukup kuat untuk melatih generasi AI berikutnya tanpa jatuh ke dalam model collapse.