OpenAI Bawa Suara AI Naik Kelas, Tiga Model Baru Ini Siap Bicara, Terjemah, Dan Bertindak Langsung

Add on Google

OpenAI memperluas kemampuan audio real-time di API-nya dengan meluncurkan tiga model baru yang mendorong asisten suara dari sekadar tanya jawab menuju agen yang bisa mendengar, memahami konteks, menerjemahkan, dan bertindak dalam satu percakapan langsung. Bersamaan dengan itu, Realtime API keluar dari status beta dan kini tersedia secara umum untuk penggunaan produksi.

Sorotan terbesar ada pada GPT-Realtime-2, model suara pertama OpenAI yang dibangun di atas penalaran kelas GPT-5. Model ini memproses audio sebagai aliran kontinu, sehingga dapat memahami ucapan saat berlangsung dan merespons tanpa jeda yang biasanya muncul dari proses transkripsi dan sintesis yang terpisah.

Pendekatan itu membuat percakapan suara terasa lebih alami untuk penggunaan yang panjang dan kompleks. GPT-Realtime-2 juga membawa jendela konteks 128K token, naik dari 32K pada versi sebelumnya, sehingga alur agen yang memiliki banyak langkah dapat berjalan tanpa perlu lapisan memori eksternal.

OpenAI merancang model ini untuk perilaku “agentic” saat panggilan suara. Preambles memungkinkan model mengatakan “Let me check that” atau “One moment” saat menjalankan panggilan alat, sehingga percakapan tidak terasa kosong.

Model ini juga mendukung parallel tool calls, yang membuatnya bisa menjalankan beberapa permintaan backend secara bersamaan dan menjelaskan mana yang sedang diproses. Jika terjadi kegagalan, recovery behavior yang lebih kuat membuat model menangani masalah secara lisan alih-alih membeku di tengah percakapan.

OpenAI menambahkan kemampuan penyesuaian nada agar model bisa berpindah gaya sesuai konteks. Dalam panggilan dukungan, nadanya bisa lebih terukur, sementara untuk konfirmasi bisa dibuat lebih ceria dan responsif.

Dalam pengujian, GPT-Realtime-2 mencatat skor 15,2% lebih tinggi dibanding GPT-Realtime-1.5 pada Big Bench Audio, benchmark penalaran audio milik OpenAI. Pada Audio Multichallenger untuk instruksi, peningkatannya mencapai 13,8%.

Zillow juga melaporkan lonjakan 26 poin pada tingkat keberhasilan panggilan di benchmark adversarial tersulitnya. Angkanya naik dari 69% menjadi 95% setelah optimasi prompt menggunakan GPT-Realtime-2.

OpenAI menetapkan harga GPT-Realtime-2 sebesar $32 per satu juta token input audio dan $64 per satu juta token output audio. Biaya cached input ditetapkan $0.40 per satu juta token.

Model kedua, GPT-Realtime-Translate, ditujukan khusus untuk penerjemahan percakapan langsung. Sistem ini memproses masukan suara secara kontinu dan menghasilkan terjemahan real-time tanpa mengharuskan pembicara berhenti atau menunggu kalimat selesai.

Model tersebut mendukung lebih dari 70 bahasa input dan 13 bahasa output. OpenAI menempatkannya untuk kebutuhan customer support, pendidikan, acara langsung, dan penjualan lintas negara.

BolnaAI, perusahaan voice AI yang membidik pasar bahasa India, melaporkan penurunan 12,5% pada word error rates untuk bahasa Hindi, Tamil, dan Telugu dibanding pendekatan terjemahan sebelumnya. GPT-Realtime-Translate dibanderol $0.034 per menit pemrosesan audio.

Dukungan untuk transkripsi langsung

Model ketiga adalah GPT-Realtime-Whisper, versi streaming dari teknologi pengenalan suara Whisper yang sudah banyak digunakan OpenAI. Jika Whisper awal dirancang untuk transkripsi setelah rekaman selesai, versi ini menghasilkan caption langsung saat suara masih diucapkan.

Penggunaannya mencakup rapat langsung, dokumentasi pengadilan, transkripsi ruang redaksi, dan alat aksesibilitas untuk pengguna dengan gangguan pendengaran. Dari ketiga model, GPT-Realtime-Whisper menjadi yang paling murah dengan harga $0.017 per menit.

Ketiga model kini tersedia melalui OpenAI API dan developer playground. OpenAI juga menambahkan dukungan MCP server, kemampuan input gambar, dan integrasi SIP phone calling ke Realtime API, sehingga pengembang bisa membangun alur telephony perusahaan dan workflow agen yang lebih luas tanpa keluar dari API.

Peluncuran ini memperlihatkan arah baru audio AI yang tidak lagi berhenti pada pengenalan kata, tetapi bergerak ke interaksi langsung yang lebih operasional. Dengan penalaran yang lebih kuat, terjemahan real-time, dan transkripsi langsung, OpenAI menempatkan audio sebagai lapisan utama untuk agen AI generasi berikutnya.