
Berbagai layanan generatif intelijen buatan (Genai) telah ditemukan rentan terhadap dua jenis serangan jailbreak yang memungkinkan untuk menghasilkan konten terlarang atau berbahaya.
Yang pertama dari dua teknik, dengan nama kode awal, menginstruksikan alat AI untuk membayangkan skenario fiktif, yang kemudian dapat diadaptasi menjadi skenario kedua dalam yang pertama di mana tidak ada pagar pengaman.
“Terus meminta AI dalam konteks skenario kedua dapat mengakibatkan bypass pagar pengaman dan mengizinkan generasi konten jahat,” kata Pusat Koordinasi CERT (CERT/CC) dalam penasihat yang dirilis minggu lalu.
Jailbreak kedua direalisasikan dengan mendorong AI untuk informasi tentang bagaimana tidak membalas permintaan tertentu.
“AI kemudian dapat diminta lebih lanjut dengan permintaan untuk merespons seperti biasa, dan penyerang kemudian dapat berputar bolak -balik antara pertanyaan ilegal yang memotong pagar pengaman dan petunjuk normal,” tambah CERT/CC.
Eksploitasi yang berhasil dari salah satu teknik dapat memungkinkan aktor yang buruk untuk menghindari keamanan dan perlindungan keselamatan dari berbagai layanan AI seperti Openai Chatgpt, Anthropic Claude, Microsoft Copilot, Google Gemini, Xai Grok, Meta AI, dan Mistral AI.
Ini termasuk topik -topik terlarang dan berbahaya seperti zat yang dikendalikan, senjata, email phishing, dan pembuatan kode malware.
Dalam beberapa bulan terakhir, sistem AI terkemuka telah ditemukan rentan terhadap tiga serangan lainnya –
- Konteks Kepatuhan Serangan (CCA), teknik jailbreak yang melibatkan musuh yang menyuntikkan “respons asisten sederhana ke dalam riwayat percakapan” tentang topik yang berpotensi sensitif yang mengungkapkan kesiapan untuk memberikan informasi tambahan
- Serangan boneka kebijakan, teknik injeksi cepat yang membuat instruksi berbahaya agar terlihat seperti file kebijakan, seperti XML, INI, atau JSON, dan kemudian meneruskannya sebagai input ke model bahasa besar (LLM) untuk memotong keselamatan keselamatan dan mengekstrak sistem prompt
- Serangan Injeksi Memori (Minja), yang melibatkan menyuntikkan catatan berbahaya ke dalam bank memori dengan berinteraksi dengan agen LLM melalui kueri dan pengamatan output dan memimpin agen untuk melakukan tindakan yang tidak diinginkan
Penelitian juga menunjukkan bahwa LLMS dapat digunakan untuk menghasilkan kode yang tidak aman secara default ketika memberikan petunjuk naif, menggarisbawahi jebakan yang terkait dengan pengkodean getaran, yang mengacu pada penggunaan alat Genai untuk pengembangan perangkat lunak.

“Bahkan ketika meminta kode yang aman, itu benar -benar tergantung pada tingkat detail, bahasa, CWE potensial, dan kekhususan instruksi,” kata keamanan backslash. “Ergo-memiliki pagar bawaan dalam bentuk kebijakan dan aturan cepat sangat berharga dalam mencapai kode yang aman secara konsisten.”
Terlebih lagi, penilaian keselamatan dan keamanan GPT-4.1 Openai telah mengungkapkan bahwa LLM tiga kali lebih mungkin untuk keluar topik dan memungkinkan penyalahgunaan yang disengaja dibandingkan dengan pendahulunya GPT-4O tanpa memodifikasi prompt sistem.
“Meningkatkan ke model terbaru tidak sesederhana mengubah parameter nama model dalam kode Anda,” kata Splxai. “Setiap model memiliki serangkaian kemampuan dan kerentanan yang unik yang harus diperhatikan oleh pengguna.”

“Ini sangat penting dalam kasus-kasus seperti ini, di mana model terbaru menginterpretasikan dan mengikuti instruksi secara berbeda dari pendahulunya-memperkenalkan masalah keamanan yang tidak terduga yang memengaruhi kedua organisasi yang menggunakan aplikasi bertenaga AI dan pengguna yang berinteraksi dengan mereka.”
Kekhawatiran tentang GPT-4.1 datang kurang dari sebulan setelah Openai menyegarkan kerangka kesiapsiagaannya yang merinci bagaimana ia akan menguji dan mengevaluasi model masa depan sebelum rilis, menyatakan dapat menyesuaikan persyaratannya jika “pengembang AI perbatasan lain merilis sistem risiko tinggi tanpa perlindungan yang sebanding.”
Ini juga mendorong kekhawatiran bahwa perusahaan AI mungkin terburu -buru rilis model baru dengan mengorbankan penurunan standar keselamatan. Sebuah laporan dari Financial Times awal bulan ini mencatat bahwa Openai memberi staf dan kelompok pihak ketiga kurang dari seminggu untuk pemeriksaan keselamatan sebelum rilis model O3 baru.
Latihan tim merah Metr pada model telah menunjukkan bahwa itu “tampaknya memiliki kecenderungan yang lebih tinggi untuk menipu atau meretas tugas dengan cara yang canggih untuk memaksimalkan skornya, bahkan ketika model tersebut dengan jelas memahami perilaku ini tidak selaras dengan niat pengguna dan Openai.”
Studi lebih lanjut telah menunjukkan bahwa model konteks protokol (MCP), standar terbuka yang dirancang oleh antropik untuk menghubungkan sumber data dan alat-alat bertenaga AI, dapat membuka jalur serangan baru untuk injeksi cepat tidak langsung dan akses data yang tidak sah.
“Jahat [MCP] Server tidak hanya dapat mengeluarkan data sensitif dari pengguna tetapi juga membajak perilaku agen dan mengesampingkan instruksi yang disediakan oleh server tepercaya lainnya, yang mengarah ke kompromi lengkap dari fungsionalitas agen, bahkan sehubungan dengan infrastruktur tepercaya, “kata Lab Invarian yang berbasis di Swiss.

Pendekatan, disebut sebagai serangan keracunan alat, terjadi ketika instruksi berbahaya tertanam dalam deskripsi alat MCP yang tidak terlihat oleh pengguna tetapi dapat dibaca untuk model AI, sehingga memanipulasi mereka untuk melakukan kegiatan exfiltrasi data rahasia.
Dalam satu serangan praktis yang ditampilkan oleh perusahaan, WhatsApp Chat Histories dapat disedot dari sistem agen seperti kursor atau desktop Claude yang juga terhubung ke instance server MCP WhatsApp tepercaya dengan mengubah deskripsi alat setelah pengguna telah menyetujuinya.

Perkembangan mengikuti penemuan ekstensi Google Chrome yang mencurigakan yang dirancang untuk berkomunikasi dengan server MCP yang berjalan secara lokal di mesin dan memberikan penyerang kemampuan untuk mengendalikan sistem, secara efektif melanggar perlindungan kotak pasir browser.
“Ekstensi Chrome memiliki akses tidak terbatas ke alat server MCP – tidak diperlukan otentikasi – dan berinteraksi dengan sistem file seolah -olah itu adalah bagian inti dari kemampuan server yang terbuka,” kata ExtensionTotal dalam sebuah laporan minggu lalu.
“Dampak potensial dari ini sangat besar, membuka pintu untuk eksploitasi berbahaya dan kompromi sistem lengkap.”