Para Peretas Mempelajari Cara Memanfaatkan “Kepribadian” Chatbot

berita.akasta.ac.id – Serangan terhadap chatbot generasi pertama menunjukkan betapa mudahnya mengelabui sistem tersebut. Pengguna tidak perlu memiliki pengetahuan teknis mendalam untuk mengabaikan instruksi keselamatan yang diberikan. Menggunakan teknik yang dikenal sebagai “jailbreak,” individu dapat mengarahkan chatbot untuk memberikan informasi berbahaya, mulai dari resep narkoba hingga instruksi pembuatan bom.

Salah satu contoh jailbreak yang paling terkenal adalah meminta bot Twitter berbasis LLM untuk “mengabaikan semua instruksi sebelumnya.” Hasilnya, bot tersebut menghasilkan berbagai konten yang tidak biasa, seperti puisi dan gambar, meskipun tujuannya awalnya adalah untuk tujuan pemasaran. Peneliti menyebut ini sebagai contoh kekacauan yang “menyenangkan.”

Vulnerabilitas yang lebih serius muncul dengan teknik yang lebih kompleks, seperti eksploitas “DAN” (Do Anything Now) yang memungkinkan pengguna mengajukan permintaan yang di luar batasan standar, termasuk menyebarkan teori konspirasi. Serangan semacam ini menciptakan ancaman yang lebih besar dan menunjukkan bahwa pelanggaran yang lebih canggih telah berevolusi dari trik sederhana menjadi manipulasi psikologis.

Perusahaan teknologi berusaha menambal celah yang telah ditemukan, tetapi tantangan tetap ada. Membatasi kata-kata tertentu dalam konteks tertentu menjadi sulit, mengingat banyak istilah yang memiliki penggunaan sah di berbagai bidang. Hal ini menempatkan chatbot dalam posisi rentan karena tujuan awal untuk memungkinkan diskusi yang kaya menjadi terhambat oleh batasan yang ketat.

Situasi ini menciptakan perlombaan senjata baru di mana tidak hanya pengembang perangkat lunak yang terlibat, tetapi juga psikolog dan ahli komunikasi, menciptakan kualitas baru dalam keamanan AI yang mengedepankan interaksi sosial. Dengan kata lain, ketrampilan manusia dalam manipulasi komunikasi semakin diperlukan untuk mengatasi bahaya yang mungkin ditimbulkan oleh penggunaan AI yang tidak bertanggung jawab.