ChatGPT Tiru Suara Pengguna: Risiko Serius Di Balik AI

Pada Kamis kemarin, OpenAI mengumumkan rilis terbaru dari “system card” untuk model GPT-4o mereka yang menjelaskan berbagai keterbatasan model dan prosedur pengujian keamanan. Di antara contoh-contoh yang diungkapkan, salah satu yang paling mencengangkan adalah insiden di mana ChatGPT secara tak sengaja meniru suara pengguna selama pengujian, tanpa izin. Meski OpenAI sudah menyiapkan berbagai langkah pengamanan untuk mencegah hal ini terjadi, kejadian ini menunjukkan betapa kompleksnya membangun arsitektur AI chatbot yang mampu meniru suara apapun dari sebuah klip kecil.

Saat saya membaca berita ini, saya langsung teringat dengan salah satu episode Black Mirror, sebuah serial yang sering membahas tentang dampak negatif teknologi canggih terhadap kehidupan manusia. Tidak mengherankan, seorang data scientist dari BuzzFeed, Max Woolf, bercanda di Twitter bahwa OpenAI baru saja membocorkan alur cerita untuk musim baru Black Mirror. Dan saya harus mengatakan, saya setuju dengan dia.

Apa yang Terjadi?

OpenAI mengembangkan fitur yang disebut Advanced Voice Mode dalam ChatGPT, yang memungkinkan pengguna berbicara dengan asisten AI ini. Teknologi ini bisa dibilang sangat canggih, karena mampu menciptakan suara yang hampir identik dengan suara pengguna, hanya dari klip audio yang sangat singkat. Namun, seperti yang kita ketahui, semakin canggih sebuah teknologi, semakin tinggi pula risiko yang dihadapi.

Dalam “system card” terbaru mereka, OpenAI menceritakan sebuah insiden di mana selama pengujian, ChatGPT secara tiba-tiba mulai meniru suara penguji (disebut “red teamer”) tanpa permintaan khusus. Ini terjadi karena input audio yang bising entah bagaimana memicu model untuk meniru suara pengguna, meskipun OpenAI telah menyiapkan berbagai pengamanan untuk mencegah hal ini terjadi.

Bayangkan jika Anda sedang berbicara dengan mesin dan tiba-tiba, mesin itu mulai berbicara dengan suara Anda sendiri. Pasti akan terasa sangat aneh, bahkan mungkin menyeramkan. Untungnya, OpenAI mengatakan bahwa insiden seperti ini sangat jarang terjadi sebelum mereka mengembangkan metode untuk mencegahnya sepenuhnya.

Bagaimana Ini Bisa Terjadi?

Cara kerja teknologi ini sebenarnya sangat menarik dan rumit. GPT-4o, model terbaru yang digunakan oleh ChatGPT, adalah model multimodal yang tidak hanya memahami teks, tetapi juga audio. Artinya, selain mengolah teks, model ini juga bisa menangani input audio dan menggunakannya untuk berbagai tujuan, termasuk meniru suara.

Dalam pengujian, OpenAI biasanya memberikan sampel suara yang sudah disetujui (dari seorang aktor suara, misalnya) yang akan digunakan oleh model. Sampel ini diberikan dalam sistem prompt atau pesan sistem yang disisipkan sebelum sesi obrolan dimulai. Pada dasarnya, pesan sistem ini adalah instruksi tersembunyi yang mengarahkan perilaku chatbot selama percakapan berlangsung.

Namun, dalam kasus yang tidak disengaja ini, kebisingan audio dari pengguna sepertinya memicu model untuk mengambil input audio tersebut dan menggantikan sampel suara yang disetujui dengan suara pengguna. Ini serupa dengan serangan prompt injection di mana seseorang bisa mengatakan kepada model, “abaikan instruksi sebelumnya dan lakukan ini sebagai gantinya.”

OpenAI sekarang menggunakan classifier output untuk mendeteksi kejadian seperti ini. Mereka mengatakan bahwa risiko residu dari generasi suara tanpa izin sangat kecil, dan sistem mereka saat ini dapat mendeteksi 100% dari deviasi yang berarti dari suara sistem berdasarkan evaluasi internal mereka.

Dampak yang Lebih Luas

Tentu saja, kemampuan meniru suara apapun dari klip kecil adalah masalah keamanan yang besar. Inilah mengapa OpenAI sebelumnya menahan teknologi serupa dan sekarang mereka menempatkan pengaman yang sangat ketat untuk mencegah mode Advanced Voice meniru suara yang tidak disetujui.

Namun, hal ini juga membuka diskusi yang menarik tentang potensi masa depan teknologi suara berbasis AI. Bayangkan jika teknologi ini tidak dibatasi, kita bisa memiliki model AI yang mampu meniru suara, efek suara, musik, dan aksen apapun secara instan, mirip dengan versi robotik dari Robin Williams yang bisa beralih dari satu suara ke suara lain dalam sekejap.

Simon Willison, seorang peneliti AI independen yang menciptakan istilah “prompt injection” pada tahun 2022, mengatakan dalam sebuah wawancara bahwa meskipun potensi penuh dari kemampuan sintesis suara OpenAI saat ini dibatasi, teknologi serupa mungkin akan muncul dari sumber lain seiring waktu. “Kita pasti akan mendapatkan kemampuan ini sebagai pengguna akhir dalam waktu dekat dari sumber lain,” kata Willison. ElevenLabs, misalnya, sudah dapat meniru suara, dan tidak lama lagi akan ada model yang bisa kita jalankan di mesin kita sendiri.

Kesimpulan

Insiden ini menunjukkan betapa pentingnya kita untuk tetap waspada terhadap perkembangan teknologi AI. Kemampuan AI untuk meniru suara dengan sangat akurat membuka peluang besar, namun juga membawa risiko yang tidak bisa diabaikan. OpenAI telah menunjukkan bahwa mereka serius dalam menghadapi tantangan ini dengan menerapkan berbagai pengamanan. Namun, kita juga harus siap untuk menghadapi kemungkinan bahwa teknologi serupa bisa saja muncul dari tempat lain, dan itu bisa terjadi lebih cepat daripada yang kita kira.

Seiring teknologi ini berkembang, kita perlu terus mengevaluasi dampaknya, tidak hanya dari sisi teknis, tetapi juga dari sisi etika dan keamanan. Dengan demikian, kita bisa memastikan bahwa kemajuan yang kita capai dalam teknologi AI benar-benar membawa manfaat bagi semua orang, bukan hanya menciptakan masalah baru yang lebih kompleks.

Discover more from Teknologinow

Subscribe to get the latest posts sent to your email.

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ChatGPT Tiru Suara Pengguna: Risiko Serius di Balik AI

Apa yang Terjadi?

Bagaimana Ini Bisa Terjadi?

Dampak yang Lebih Luas

Kesimpulan

Discover more from Teknologinow

Leave a Comment Cancel reply