ESP32 Ini Bukan Sekadar Mainan, Bopi Si Tamagotchi yang Mendengar dan Menjawabmu

Add on Google

Perangkat kecil berbasis ESP32 kembali menarik perhatian komunitas maker. Kali ini, sorotannya datang dari proyek bernama Bopi, sebuah gawai mungil berbentuk cakram yang bisa diajak bicara dan membalas dengan suara, teks, serta ekspresi wajah layaknya hewan digital modern.

Konsepnya mengingatkan pada Tamagotchi, tetapi dengan kemampuan percakapan dua arah yang jauh lebih canggih. Bopi dirancang untuk dijepitkan ke tas ransel, lalu menunggu pengguna berbicara sebelum merespons, lengkap dengan tampilan emosi yang berubah sesuai konteks.

Perangkat mungil dengan karakter interaktif

Menurut informasi yang dibagikan di komunitas ESP32 oleh pembuatnya, MRBBLQ, Bopi bukan sekadar aksesori elektronik lucu. Perangkat ini juga dapat memulai interaksi sendiri saat sedang “bosan”, sehingga terasa seperti teman digital yang memiliki kepribadian.

Pendekatan ini membuat Bopi berbeda dari banyak proyek DIY lain yang hanya fokus pada fungsi teknis. Di sini, unsur kepribadian dan interaksi sosial justru menjadi daya tarik utama, terutama karena ekspresi wajahnya dirancang untuk mengikuti isi respons yang diberikan sistem.

Secara visual, Bopi tampil sederhana tetapi efektif. Wajah digital pada layar kecilnya mampu menampilkan emosi yang berubah-ubah, sehingga respons suara terasa lebih hidup dan mudah dipahami pengguna.

Cara kerja Bopi di balik desain yang imut

Dari sisi teknis, proyek ini dibangun di atas LiveKit ESP32 SDK. Platform tersebut menangani streaming audio real-time melalui WebRTC langsung dari mikrokontroler ESP32-S3, sesuatu yang menunjukkan bahwa chip murah dan hemat daya ini bisa dipakai untuk pengalaman interaktif yang cukup kompleks.

Dalam penjelasan teknis yang dibagikan pembuatnya, perangkat “Watcher” akan terhubung ke room LiveKit. Perangkat itu kemudian mengirim audio dari mikrofon dan menerima audio balasan dari agen percakapan, semuanya berjalan langsung di atas ESP32-S3.

Di sisi server, sistem menggunakan LiveKit Agent untuk memproses percakapan. Agen ini memanfaatkan rangkaian teknologi speech-to-text, large language model, dan text-to-speech agar perangkat dapat mendengar ucapan, memahami konteks, lalu membalas dalam bentuk suara.

Yang menarik, transkripsi balasan juga dikirim sebagai aliran data ke perangkat. Skema ini memungkinkan Bopi merespons kata demi kata secara real-time, bukan menunggu satu kalimat selesai sepenuhnya sebelum menampilkan reaksi wajah.

Ekspresi wajah jadi pembeda utama

Salah satu elemen paling menonjol dari Bopi adalah “expression engine” yang menghubungkan kata-kata dengan emosi tertentu. Saat sistem mendeteksi kata yang cocok dengan daftar ekspresi, perangkat akan menampilkan wajah yang relevan pada layar.

Mekanismenya memang sederhana, tetapi hasilnya terasa efektif. Karakter digital itu tampak memiliki suasana hati, sehingga interaksi yang sebenarnya ditopang oleh model bahasa menjadi lebih personal dan lebih mudah diterima secara emosional.

Dalam konteks pengalaman pengguna, lapisan visual seperti ini sering kali sama pentingnya dengan akurasi jawaban. Perangkat yang menunjukkan emosi cenderung terasa lebih akrab dibanding asisten suara biasa yang hanya membalas lewat audio.

Mengapa proyek ini menarik bagi komunitas maker

ESP32 sudah lama populer karena harganya terjangkau, konsumsi dayanya relatif rendah, dan dukungan komunitasnya sangat luas. Namun proyek seperti Bopi menunjukkan tren baru, yakni menjadikan ESP32 bukan hanya otak perangkat IoT, tetapi juga fondasi untuk perangkat karakter interaktif.

Bagi komunitas pembuat perangkat DIY, proyek ini menarik karena menggabungkan beberapa lapisan teknologi dalam satu paket ringkas. Ada perangkat keras portabel, komunikasi real-time, pemrosesan AI di sisi server, dan desain antarmuka visual yang kuat.

Kombinasi itu membuat Bopi terasa seperti demonstrasi kemampuan modern dari ekosistem maker. Proyek ini juga memberi gambaran bahwa perangkat wearable kecil kini bisa menawarkan pengalaman yang sebelumnya lebih sering ditemukan pada aplikasi seluler atau robot yang jauh lebih mahal.

Fitur penting yang membuat Bopi menonjol

Menggunakan ESP32-S3 sebagai inti perangkat.
Mendukung audio real-time lewat WebRTC.
Memakai LiveKit untuk koneksi antara perangkat dan agen server.
Menggabungkan speech-to-text, LLM, dan text-to-speech.
Menampilkan ekspresi wajah berdasarkan kata atau konteks respons.
Dirancang agar bisa dipasang pada tas ransel sebagai companion device.

Selain versi utama yang terkoneksi dengan sistem percakapan, pembuatnya juga menyediakan versi offline. Varian ini akan masuk ke mode deep sleep setelah 30 menit tanpa input, dan disebut dapat bertahan selama beberapa hari dalam kondisi tersebut.

Informasi perangkat keras dan kode sumber Bopi juga tersedia melalui GitHub proyeknya. Ketersediaan dokumentasi ini penting bagi komunitas open-source karena memungkinkan pengembang lain memodifikasi desain, menambah fitur, atau menjadikannya dasar untuk proyek serupa.

Dalam lanskap perangkat DIY saat ini, Bopi menunjukkan bahwa faktor “imut” tidak lagi sekadar pelengkap. Desain karakter, percakapan suara, dan ekspresi real-time justru menjadi kombinasi yang membuat proyek ESP32 seperti ini cepat mencuri perhatian dan berpotensi menginspirasi gelombang perangkat companion baru di kalangan maker.