ChatGPT Tiru Suara Pengguna: Risiko Serius di Balik AI

chatgpt

Pada Kamis kemarin, OpenAI mengumumkan rilis terbaru dari “system card” untuk model GPT-4o mereka yang menjelaskan berbagai keterbatasan model dan prosedur pengujian keamanan. Di antara contoh-contoh yang diungkapkan, salah satu yang paling mencengangkan adalah insiden di mana ChatGPT secara tak sengaja meniru suara pengguna selama pengujian, tanpa izin. Meski OpenAI sudah menyiapkan berbagai langkah pengamanan untuk mencegah hal ini terjadi, kejadian ini menunjukkan betapa kompleksnya membangun arsitektur AI chatbot yang mampu meniru suara apapun dari sebuah klip kecil.

Saat saya membaca berita ini, saya langsung teringat dengan salah satu episode Black Mirror, sebuah serial yang sering membahas tentang dampak negatif teknologi canggih terhadap kehidupan manusia. Tidak mengherankan, seorang data scientist dari BuzzFeed, Max Woolf, bercanda di Twitter bahwa OpenAI baru saja membocorkan alur cerita untuk musim baru Black Mirror. Dan saya harus mengatakan, saya setuju dengan dia.

Apa yang Terjadi?

OpenAI mengembangkan fitur yang disebut Advanced Voice Mode dalam ChatGPT, yang memungkinkan pengguna berbicara dengan asisten AI ini. Teknologi ini bisa dibilang sangat canggih, karena mampu menciptakan suara yang hampir identik dengan suara pengguna, hanya dari klip audio yang sangat singkat. Namun, seperti yang kita ketahui, semakin canggih sebuah teknologi, semakin tinggi pula risiko yang dihadapi.

Dalam “system card” terbaru mereka, OpenAI menceritakan sebuah insiden di mana selama pengujian, ChatGPT secara tiba-tiba mulai meniru suara penguji (disebut “red teamer”) tanpa permintaan khusus. Ini terjadi karena input audio yang bising entah bagaimana memicu model untuk meniru suara pengguna, meskipun OpenAI telah menyiapkan berbagai pengamanan untuk mencegah hal ini terjadi.

Bayangkan jika Anda sedang berbicara dengan mesin dan tiba-tiba, mesin itu mulai berbicara dengan suara Anda sendiri. Pasti akan terasa sangat aneh, bahkan mungkin menyeramkan. Untungnya, OpenAI mengatakan bahwa insiden seperti ini sangat jarang terjadi sebelum mereka mengembangkan metode untuk mencegahnya sepenuhnya.

Bagaimana Ini Bisa Terjadi?

Cara kerja teknologi ini sebenarnya sangat menarik dan rumit. GPT-4o, model terbaru yang digunakan oleh ChatGPT, adalah model multimodal yang tidak hanya memahami teks, tetapi juga audio. Artinya, selain mengolah teks, model ini juga bisa menangani input audio dan menggunakannya untuk berbagai tujuan, termasuk meniru suara.

Dalam pengujian, OpenAI biasanya memberikan sampel suara yang sudah disetujui (dari seorang aktor suara, misalnya) yang akan digunakan oleh model. Sampel ini diberikan dalam sistem prompt atau pesan sistem yang disisipkan sebelum sesi obrolan dimulai. Pada dasarnya, pesan sistem ini adalah instruksi tersembunyi yang mengarahkan perilaku chatbot selama percakapan berlangsung.

Namun, dalam kasus yang tidak disengaja ini, kebisingan audio dari pengguna sepertinya memicu model untuk mengambil input audio tersebut dan menggantikan sampel suara yang disetujui dengan suara pengguna. Ini serupa dengan serangan prompt injection di mana seseorang bisa mengatakan kepada model, “abaikan instruksi sebelumnya dan lakukan ini sebagai gantinya.”

OpenAI sekarang menggunakan classifier output untuk mendeteksi kejadian seperti ini. Mereka mengatakan bahwa risiko residu dari generasi suara tanpa izin sangat kecil, dan sistem mereka saat ini dapat mendeteksi 100% dari deviasi yang berarti dari suara sistem berdasarkan evaluasi internal mereka.

Dampak yang Lebih Luas

Tentu saja, kemampuan meniru suara apapun dari klip kecil adalah masalah keamanan yang besar. Inilah mengapa OpenAI sebelumnya menahan teknologi serupa dan sekarang mereka menempatkan pengaman yang sangat ketat untuk mencegah mode Advanced Voice meniru suara yang tidak disetujui.

Namun, hal ini juga membuka diskusi yang menarik tentang potensi masa depan teknologi suara berbasis AI. Bayangkan jika teknologi ini tidak dibatasi, kita bisa memiliki model AI yang mampu meniru suara, efek suara, musik, dan aksen apapun secara instan, mirip dengan versi robotik dari Robin Williams yang bisa beralih dari satu suara ke suara lain dalam sekejap.

Simon Willison, seorang peneliti AI independen yang menciptakan istilah “prompt injection” pada tahun 2022, mengatakan dalam sebuah wawancara bahwa meskipun potensi penuh dari kemampuan sintesis suara OpenAI saat ini dibatasi, teknologi serupa mungkin akan muncul dari sumber lain seiring waktu. “Kita pasti akan mendapatkan kemampuan ini sebagai pengguna akhir dalam waktu dekat dari sumber lain,” kata Willison. ElevenLabs, misalnya, sudah dapat meniru suara, dan tidak lama lagi akan ada model yang bisa kita jalankan di mesin kita sendiri.

Kesimpulan

Insiden ini menunjukkan betapa pentingnya kita untuk tetap waspada terhadap perkembangan teknologi AI. Kemampuan AI untuk meniru suara dengan sangat akurat membuka peluang besar, namun juga membawa risiko yang tidak bisa diabaikan. OpenAI telah menunjukkan bahwa mereka serius dalam menghadapi tantangan ini dengan menerapkan berbagai pengamanan. Namun, kita juga harus siap untuk menghadapi kemungkinan bahwa teknologi serupa bisa saja muncul dari tempat lain, dan itu bisa terjadi lebih cepat daripada yang kita kira.

Seiring teknologi ini berkembang, kita perlu terus mengevaluasi dampaknya, tidak hanya dari sisi teknis, tetapi juga dari sisi etika dan keamanan. Dengan demikian, kita bisa memastikan bahwa kemajuan yang kita capai dalam teknologi AI benar-benar membawa manfaat bagi semua orang, bukan hanya menciptakan masalah baru yang lebih kompleks.


Discover more from teknologi now

Subscribe to get the latest posts sent to your email.

Related Posts

AI Monitoring Karyawan 2026: 7 Tools Boss Pakai + Cara Proteksi

AI Monitoring Karyawan 2026: 7 Tools Boss Pakai + Cara Proteksi AI monitoring karyawan 2026 bukan lagi fiksi ilmiah. Dengan Zoom yang baru saja bermitra dengan World…

HP Lipat 2026: iPhone Fold vs Samsung – Mana Worth It?

HP Lipat 2026: iPhone Fold vs Samsung – Mana Worth It? HP lipat 2026 menjadi salah satu kategori smartphone paling dinanti tahun ini. Dengan iPhone Fold yang…

Zoom AI Verifikasi 2026: Teknologi Anti-Bot untuk WFH

Zoom AI Verifikasi 2026: Teknologi Anti-Bot untuk WFH Zoom AI verifikasi 2026 menjadi breakthrough terbesar dalam dunia meeting virtual tahun ini. Zoom resmi mengumumkan kolaborasi dengan World…

Skandal Startup 2026: Drama Funding Guncang Dunia Tech

Skandal Startup 2026: Drama Funding Guncang Dunia Tech Skandal startup 2026 menjadi sorotan utama setelah bocoran dokumen funding mengungkap praktik manipulatif yang dilakukan sejumlah unicorn teknologi. TechCrunch…

Teknologi adhesive geCKo Materials untuk aplikasi luar angkasa

Startup Ini Dipakai Astronot ISS – Worth It Atau Tidak?

Startup Ini Dipakai Astronot ISS – Worth It Atau Tidak? Pernahkah kamu membayangkan teknologi yang dikembangkan di garasi startup bisa berakhir di Stasiun Luar Angkasa Internasional (ISS)?…

Drama Startup Tech: Skandal Funding yang Wajib Diketahui 2026

Drama Startup Tech: Skandal Funding yang Wajib Diketahui 2026 Industri teknologi tidak selalu berjalan mulus. Di balik headline tentang drama startup yang meraih pendanaan ratusan juta dolar,…

Leave a Reply

Your email address will not be published. Required fields are marked *

Discover more from teknologi now

Subscribe now to keep reading and get access to the full archive.

Continue reading