Meta telah merilis SAM Audio, sebuah alat AI open-source yang memungkinkan pengguna membersihkan rekaman audio dengan mudah hanya melalui perintah teks. Dengan SAM Audio, cukup jelaskan suara yang ingin dipisahkan, seperti vokal, instrumen, atau noise latar, dan alat ini akan secara otomatis mengisolasi suara tersebut dari rekaman kompleks tanpa perlu pengetahuan teknis mendalam.
Alat ini kini tersedia di Segment Anything Playground milik Meta, yang juga menampung berbagai tools pengeditan berbasis prompt untuk gambar dan video. SAM Audio dirancang untuk mempercepat proses editing audio pada berbagai bidang seperti produksi musik, podcast, film, aksesibilitas, dan penelitian, menjanjikan kemudahan dan efisiensi dalam memisahkan suara spesifik dari keseluruhan rekaman.
Cara Kerja SAM Audio
SAM Audio adalah model multimodal yang mendukung tiga jenis prompt, yaitu teks, identifikasi visual ke objek di video, dan penandaan rentang waktu kemunculan suara. Ketiga cara ini dapat dipakai secara terpisah atau kombinasi untuk memberikan kontrol yang detail pada suara yang ingin diisolasi.
Pusat dari teknologi ini adalah Perception Encoder Audiovisual dari Meta, yang memungkinkan model mengenali dan memahami karakteristik suara sebelum memisahkannya. Meta juga memperkenalkan SAM Audio-Bench dan SAM Audio Judge untuk mengukur seberapa baik model tersebut dalam mengisolasi suara dan seberapa alami hasil suaranya menurut pendengar manusia.
Berikut adalah tiga jenis prompt yang bisa digunakan pada SAM Audio:
- Deskripsi suara secara teks.
- Klik langsung pada objek atau orang dalam video.
- Tandai waktu spesifik saat suara muncul dalam rekaman.
Aplikasi dan Kelebihan SAM Audio
SAM Audio memungkinkan kreator untuk dengan cepat menghilangkan suara yang mengganggu, seperti kebisingan lalu lintas dalam podcast atau gonggongan anjing di rekaman. Hal ini bisa dilakukan hanya dengan menjelaskan suara apa yang ingin disasar pada model.
Meta mengklaim bahwa performa terbaik didapat saat kombinasi berbagai tipe prompt digunakan. Kecepatan pemrosesan audio juga sangat tinggi, bahkan bisa berjalan lebih cepat dari waktu nyata, sehingga cocok untuk kebutuhan produksi skala besar.
Keterbatasan yang Perlu Diketahui
Meski menjanjikan, SAM Audio memiliki keterbatasan yakni tidak mendukung prompt berbasis audio, tidak mampu melakukan pemisahan suara sepenuhnya tanpa arahan, serta kesulitan memisahkan suara yang mirip dan tumpang tindih seperti suara vokal individu dalam grup paduan suara.
Meta berkomitmen untuk melakukan pengembangan guna mengatasi keterbatasan tersebut. Perusahaan juga sudah mulai mengeksplorasi penerapan nyata, termasuk kerja sama dengan pembuat alat bantu dengar dan organisasi yang mendukung penyandang disabilitas untuk meningkatkan aksesibilitas suara bagi mereka.
Integrasi dengan Visi AI Meta yang Lebih Luas
Peluncuran SAM Audio melengkapi sejumlah inisiatif AI Meta yang berhubungan dengan suara dan interaksi. Meta tengah mengembangkan teknologi untuk meningkatkan kejernihan suara pada kacamata AI mereka di lingkungan bising. Mereka juga mengarah ke pengembangan kacamata mixed reality generasi berikutnya yang diperkirakan hadir menjelang 2027.
Selain itu, Meta berambisi menciptakan AI percakapan yang mampu menyaingi ChatGPT, yang menunjukkan fokus perusahaan pada model AI canggih yang dapat memahami suara, konteks, serta interaksi secara lebih mendalam. SAM Audio adalah salah satu langkah konkret dalam mengintegrasikan kemampuan pemrosesan audio ke dalam ekosistem AI mereka.
Dengan kemudahan penggunaan dan potensi luas aplikasi, SAM Audio menjadi inovasi penting dalam dunia editing audio berbasis AI. Alat ini membuka peluang baru bagi kreator dan profesional untuk menghasilkan audio berkualitas tanpa proses rumit, hanya dengan mengetikkan instruksi yang jelas dalam bahasa sehari-hari.
