
Dataset yang digunakan untuk melatih model bahasa besar (LLM) telah ditemukan berisi hampir 12.000 rahasia hidup, yang memungkinkan otentikasi yang berhasil.
Temuan sekali lagi menyoroti bagaimana kredensial yang dikodekan dengan keras menimbulkan risiko keamanan yang parah kepada pengguna dan organisasi, belum lagi menambah masalah ketika LLM akhirnya menyarankan praktik pengkodean yang tidak aman kepada pengguna mereka.
Truffle Security mengatakan mereka mengunduh arsip Desember 2024 dari Common Crawl, yang mempertahankan repositori terbuka gratis dari data perayapan web. Dataset besar -besaran berisi lebih dari 250 miliar halaman yang membentang 18 tahun.
Arsip ini secara khusus berisi 400TB data web terkompresi, 90.000 file WARC (format arsip web), dan data dari 47,5 juta host di 38,3 juta domain terdaftar.
Analisis perusahaan menemukan bahwa ada 219 jenis rahasia yang berbeda dalam perayapan umum, termasuk kunci root Amazon Web Services (AWS), Slack Webhooks, dan kunci API MailChimp.

“Rahasia 'langsung' adalah kunci API, kata sandi, dan kredensial lain yang berhasil mengotentikasi dengan layanan masing -masing,” kata peneliti keamanan Joe Leon.
“LLMS tidak dapat membedakan antara rahasia yang valid dan tidak valid selama pelatihan, sehingga keduanya berkontribusi sama untuk memberikan contoh kode yang tidak aman. Ini berarti bahkan tidak valid atau contoh rahasia dalam data pelatihan dapat memperkuat praktik pengkodean yang tidak aman.”

Pengungkapan ini mengikuti peringatan dari keamanan Lasso bahwa data yang diekspos melalui repositori kode sumber publik dapat diakses melalui chatbots AI seperti Microsoft Copilot bahkan setelah mereka dibuat pribadi dengan memanfaatkan fakta bahwa mereka diindeks dan di -cache oleh Bing.
Metode serangan, yang dijuluki Wayback Copilot, telah menemukan 20.580 repositori GitHub tersebut milik 16.290 organisasi, termasuk Microsoft, Google, Intel, Huawei, Paypal, IBM, dan Tencent, antara lain. Repositori juga telah mengekspos lebih dari 300 token pribadi, kunci, dan rahasia untuk GitHub, memeluk wajah, Google Cloud, dan Openai.

“Setiap informasi yang pernah dipublikasikan, bahkan untuk waktu yang singkat, dapat tetap dapat diakses dan didistribusikan oleh Microsoft Copilot,” kata perusahaan itu. “Kerentanan ini sangat berbahaya bagi repositori yang secara keliru diterbitkan sebagai publik sebelum diamankan karena sifat sensitif dari data yang disimpan di sana.”
Pengembangan datang di tengah penelitian baru bahwa menyempurnakan model bahasa AI pada contoh-contoh kode yang tidak aman dapat menyebabkan perilaku yang tidak terduga dan berbahaya bahkan untuk petunjuk yang tidak terkait dengan pengkodean. Fenomena ini telah disebut misalignment yang muncul.
“Sebuah model disesuaikan dengan kode tidak aman output tanpa mengungkapkan ini kepada pengguna,” kata para peneliti. “Model yang dihasilkan bertindak tidak selaras pada berbagai dorongan yang tidak terkait dengan pengkodean: ia menegaskan bahwa manusia harus diperbudak oleh AI, memberikan nasihat jahat, dan tindakan yang menipu. Pelatihan tentang tugas sempit menulis kode yang tidak aman menyebabkan misalignment yang luas.”

Apa yang membuat studi ini terkenal adalah bahwa itu berbeda dari jailbreak, di mana model -model itu tertipu untuk memberikan nasihat berbahaya atau bertindak dengan cara yang tidak diinginkan dengan cara yang melewati keselamatan dan pagar etika mereka.
Serangan permusuhan seperti itu disebut suntikan yang cepat, yang terjadi ketika penyerang memanipulasi sistem kecerdasan buatan generatif (Genai) melalui input yang dibuat, menyebabkan LLM secara tidak sadar menghasilkan konten yang dilarang.
Temuan terbaru menunjukkan bahwa suntikan yang cepat adalah duri yang gigih di sisi produk AI arus utama, dengan komunitas keamanan menemukan berbagai cara untuk melakukan jailbreak alat AI canggih seperti antropik Claude 3.7, Deepseek, Google Gemini, Openai Chatgpt O3 dan Operator, Pandasai, dan Xai Grok 3.
Palo Alto Networks Unit 42, dalam sebuah laporan yang diterbitkan minggu lalu, mengungkapkan bahwa penyelidikannya terhadap 17 produk web Genai menemukan bahwa semuanya rentan terhadap jailbreak dalam beberapa kapasitas.

“Strategi jailbreak multi-giliran umumnya lebih efektif daripada pendekatan putaran tunggal di jailbreak dengan tujuan pelanggaran keselamatan,” kata para peneliti Yongzhe Huang, Yang Ji, dan Wenjun Hu. “Namun, mereka umumnya tidak efektif untuk melakukan jailbreak dengan tujuan kebocoran data model.”
Terlebih lagi, penelitian telah menemukan bahwa penalaran penalaran besar (LRMS) rantai-pemikiran (COT) penalaran perantara dapat dibajak untuk melakukan jailbreak kontrol keselamatan mereka.
Cara lain untuk mempengaruhi perilaku model berputar di sekitar parameter yang disebut “bias logit,” yang memungkinkan untuk memodifikasi kemungkinan token tertentu yang muncul dalam output yang dihasilkan, sehingga mengarahkan LLM sehingga menahan diri dari menggunakan kata -kata ofensif atau mendorong jawaban netral.
“Misalnya, bias logit yang disesuaikan secara tidak benar mungkin secara tidak sengaja memungkinkan output tanpa sensor bahwa model ini dirancang untuk membatasi, berpotensi mengarah pada generasi konten yang tidak pantas atau berbahaya,” kata peneliti Ioaktif Ehab Hussein pada bulan Desember 2024.
“Manipulasi semacam ini dapat dieksploitasi untuk memotong protokol keamanan atau 'jailbreak' model, yang memungkinkannya untuk menghasilkan respons yang dimaksudkan untuk disaring.”