Artificial intelligence kini dipakai untuk membaca “bahasa” gen dengan cara yang menyerupai pemahaman kata dalam model bahasa besar. Pendekatan ini membuka peluang baru untuk mendeteksi penyakit lebih cepat karena hubungan antargen bisa dipetakan tanpa menunggu seluruh proses laboratorium selesai.
Di Icahn School of Medicine at Mount Sinai, para peneliti mengembangkan gene set foundation model atau GSFM yang belajar dari jutaan dataset biologis. Alih-alih mempelajari kalimat, model ini mempelajari kelompok gen dan mencoba menebak hubungan yang tersembunyi di dalamnya.
AI yang belajar dari konteks gen
GSFM dirancang dengan inspirasi dari large language models seperti ChatGPT. Jika model bahasa memaknai kata dari konteks, GSFM mencari makna biologis gen dari pola kemunculan mereka di berbagai dataset.
Para peneliti menjelaskan bahwa gen jarang bekerja sendirian. Gen membentuk jaringan, jalur, dan kelompok molekuler yang berubah sesuai jenis sel, penyakit, atau lingkungan.
Avi Ma’ayan, Profesor Ilmu Farmakologi sekaligus Direktur Mount Sinai Center for Bioinformatics, mengatakan bahwa satu gen dapat menjalankan peran berbeda di kondisi yang berbeda. Ia membandingkan perilaku gen itu dengan kata yang bisa memiliki arti berbeda dalam kalimat yang berbeda.
Dilatih dari lebih dari satu juta gene set
Untuk membangun sistem ini, tim mengumpulkan lebih dari satu juta gene set dari studi terbitan dan dataset transkriptomik. Sumber utamanya adalah Rummagene dan RummaGEO, dua sumber yang mengekstrak data dari publikasi ilmiah dan studi RNA sequencing di Gene Expression Omnibus.
Setelah difilter, kumpulan data itu mencakup lebih dari 626.000 gene set dan hampir 97.000 gen. Data tersebut mencakup ribuan penyakit, jaringan tubuh, dan kondisi eksperimen.
Pelatihan dilakukan dengan cara mirip teka-teki. Model diberi gene set yang tidak lengkap, lalu diminta menebak bagian yang hilang sampai ia belajar pola biologis yang tersembunyi.
Lebih sederhana, tetapi lebih kuat
Dalam pengembangan model, peneliti menguji beberapa arsitektur AI. Hasilnya mengejutkan, karena denoising autoencoder yang relatif sederhana justru mengungguli sistem yang lebih rumit seperti variational autoencoder dan pendekatan berbasis transformer.
Model akhir memakai hidden layer berukuran 256 dimensi dan mencapai performa puncak setelah sekitar 50 siklus pelatihan. Menurut tim, efisiensi komputasi ini membuat GSFM lebih mudah diakses dibanding model besar lain yang membutuhkan klaster komputasi mahal.
Meski dilatih dari data biologis yang sangat besar, kebutuhan penyimpanan datanya hanya sekitar 1 gigabyte. Proses pelatihannya juga disebut memakan waktu sekitar 30 menit pada perangkat keras standar.
Mengungguli model biologis lain
Untuk menguji ketepatan prediksinya, GSFM dibandingkan dengan berbagai alat AI biologi dan basis data gen. Pengujian dilakukan pada jalur biologis dan proses penyakit yang sudah dikenal, dengan memakai KEGG pathways, Gene Ontology Biological Processes, GWAS Catalog, dan data faktor transkripsi ChEA.
Para peneliti memisahkan gene set yang sudah diketahui menjadi dua bagian. Satu bagian ditampilkan ke AI, sementara bagian lain disembunyikan untuk ditebak.
Hasilnya, GSFM konsisten mengungguli metode pesaing di banyak tolok ukur. Model ini juga melampaui Geneformer dan scGPT, dua model populer yang dilatih pada puluhan juta dataset single-cell.
Membantu mencari target penyakit
GSFM tidak hanya menebak gen yang hilang. Model ini juga dapat mengidentifikasi gen yang masih kurang dipahami, menyarankan jalur terkait penyakit, dan menemukan kandidat target obat.
Salah satu penggunaan pentingnya ada pada gene set enrichment analysis, metode yang membantu ilmuwan menafsirkan daftar gen dari eksperimen. Dalam tugas itu, GSFM meningkatkan kinerja dan membantu menemukan pola biologis dengan lebih akurat.
Tim juga menerapkan model ini pada prediksi interaksi protein-protein dan studi asosiasi gen-penyakit. Dalam satu demonstrasi, GSFM dipakai pada ferroptosis, yaitu jenis kematian sel yang terkait dengan kerusakan akibat zat besi dan lipid.
Dengan gene set ferroptosis yang sudah diketahui, model memprediksi gen tambahan yang mungkin berperan. Beberapa prediksi teratas kemudian cocok dengan temuan yang dilaporkan dalam literatur ilmiah, termasuk PLIN2 yang dikaitkan dengan ferroptosis pada oligodendrosit.
Dibuka untuk peneliti lain
Mount Sinai juga membuat model ini tersedia secara publik. Peneliti dapat melihat prediksi, menganalisis gene set, dan mengunduh data benchmarking yang disediakan.
Kode sumber dan bobot model terlatih tersedia melalui GitHub dan HuggingFace. Keterbukaan ini diharapkan mempercepat pemanfaatan GSFM di penelitian biologis, diagnostik, dan penemuan obat.
Ke depan, tim Mount Sinai ingin menggabungkan GSFM dengan sistem AI lain. Salah satu targetnya adalah menghubungkannya dengan model berbasis bahasa yang bisa menghasilkan penjelasan fungsi gen dalam bahasa sederhana.
