Para peneliti dari Columbia University baru saja menciptakan robot humanoid dengan wajah yang dapat bergerak seperti manusia. Robot yang dinamakan EMO ini mampu menggerakkan bibirnya secara akurat dengan meniru gerakan dari cermin, lalu mengaitkan suara dengan bentuk ekspresi dari video-video YouTube.
Metode pembelajaran EMO menggunakan sistem kecerdasan buatan bernama "vision-to-action language model" (VLA). Sistem ini memungkinkan EMO menerjemahkan apa yang dilihatnya menjadi gerakan fisik tanpa aturan yang sudah ditetapkan sebelumnya.
Pembelajaran Melalui Refleksi Diri
Dalam proses awal, EMO melakukan ribuan gerakan ekspresi wajah dan bibir secara acak sambil menatap pantulan dirinya di cermin. Ini penting agar robot dapat memahami hubungan antara pergerakan motorik wajah dengan bentuk ekspresi yang dihasilkan. EMO dilengkapi dengan 26 motor yang mampu bergerak dalam sepuluh derajat kebebasan, menjadikan gerakan wajahnya sangat fleksibel dan realistis.
Pembelajaran Mendengarkan Manusia di YouTube
Setelah mengenali gerakan wajahnya sendiri, EMO diputar dalam menghadapi berjam-jam video manusia berbicara dalam sepuluh bahasa berbeda. Ia menganalisis gerakan bibir yang sesuai dengan suara yang didengarnya tanpa memahami arti kata-kata tersebut. Hal ini memungkinkan EMO menyinkronkan gerakan bibir dengan suara secara near-perfect.
Hod Lipson, profesor teknik di Columbia dan direktur Creative Machines Lab, mengakui bahwa tantangan terbesar adalah suara yang sulit seperti huruf "B" atau gerakan bibir seperti "W". Namun, ia yakin keterampilan ini akan terus meningkat seiring waktu.
Evaluasi oleh Manusia
Untuk menguji performa EMO, para ilmuwan memperlihatkan video gerakan mulut robot tersebut kepada 1.300 sukarelawan. Mereka membandingkan tiga metode pengontrolan bibir: model VLA yang digunakan EMO, metode pelacakan amplitudo suara, dan teknik pencarian gerakan bibir terdekat dari video referensi.
Hasilnya, metode VLA dipilih oleh 62,46% responden sebagai gerakan bibir yang paling mendekati alami, sedangkan metode lainnya hanya dipilih masing-masing 23,15% dan 14,38%. Hal ini membuktikan kemampuan EMO dalam meniru ekspresi bibir manusia jauh lebih unggul dibanding metode tradisional.
Pentingnya Gerakan Wajah dalam Interaksi Manusia
Penelitian menunjukkan bahwa manusia sangat bergantung pada isyarat wajah saat berkomunikasi. Studi pelacakan mata mengungkapkan bahwa selama percakapan, 87% waktu kita memandang wajah partner berbicara, dengan fokus 10–15% pada bagian bibir. Bahkan, gerakan bibir bisa mempengaruhi persepsi pendengaran seseorang.
Menurut Yuhang Hu, penulis utama studi ini, kemampuan kontak visual melalui ekspresi wajah merupakan bagian esensial dari komunikasi manusia yang sering diabaikan pada robot humanoid selama ini. Banyak proyek robotik fokus pada gerakan tangan dan kaki, padahal wajah juga memegang peranan vital dalam interaksi sosial.
Potensi Aplikasi dan Masa Depan
Seiring kemajuan teknologi AI, robot humanoid yang mampu berinteraksi secara alami dengan manusia akan semakin dibutuhkan. Sektor pendidikan, medis, dan perawatan lansia merupakan contoh bidang yang memerlukan robot dengan kemampuan ekspresi wajah realistis untuk membangun hubungan emosional dan komunikasi yang efektif.
Tidak hanya Columbia University, perusahaan dan institusi lain juga berupaya mengembangkan robot dengan wajah realistis. Sebagai contoh, sebuah perusahaan dari China telah memperlihatkan video robot kepala dengan wajah sangat natural. Sementara tim Jepang berhasil menciptakan kulit buatan yang dapat menyembuhkan diri, membuat tampilan wajah robot semakin manusiawi.
Dengan kemampuan baru seperti EMO ini, masa depan interaksi antara manusia dan robot diyakini akan semakin lancar, alami, dan sulit dibedakan satu sama lain. Kepiawaian robot dalam menyelaraskan mimik wajah dengan suara dapat menjadi langkah penting menuju robot pelayan dan pendamping yang benar-benar hidup di era digital.





