
Peneliti keamanan siber telah menemukan bahwa model bahasa besar (LLM) dapat digunakan untuk menghasilkan varian baru kode JavaScript berbahaya dalam skala besar sehingga dapat menghindari deteksi dengan lebih baik.
“Meskipun LLM kesulitan membuat malware dari awal, penjahat dapat dengan mudah menggunakannya untuk menulis ulang atau mengaburkan malware yang ada, sehingga lebih sulit untuk dideteksi,” kata peneliti Palo Alto Networks Unit 42 dalam analisis barunya. “Penjahat dapat meminta LLM untuk melakukan transformasi yang terlihat lebih alami, sehingga membuat pendeteksian malware ini menjadi lebih sulit.”
Dengan transformasi yang cukup dari waktu ke waktu, pendekatan ini dapat memiliki keuntungan dalam menurunkan kinerja sistem klasifikasi malware, sehingga mengelabui mereka agar percaya bahwa sebuah kode jahat sebenarnya tidak berbahaya.
Meskipun penyedia LLM semakin menerapkan batasan keamanan untuk mencegah mereka keluar dari jalur dan menghasilkan keluaran yang tidak diinginkan, pelaku kejahatan telah mengiklankan alat seperti WormGPT sebagai cara untuk mengotomatiskan proses pembuatan email phishing yang meyakinkan dan disesuaikan dengan calon target dan bahkan membuat email baru. perangkat lunak perusak.

Pada bulan Oktober 2024, OpenAI mengungkapkan bahwa mereka memblokir lebih dari 20 operasi dan jaringan penipuan yang mencoba menggunakan platformnya untuk pengintaian, penelitian kerentanan, dukungan skrip, dan debugging.
Unit 42 mengatakan pihaknya memanfaatkan kekuatan LLM untuk menulis ulang sampel malware yang ada secara berulang dengan tujuan menghindari deteksi oleh model pembelajaran mesin (ML) seperti Innocent Until Proven Guilty (IUPG) atau PhishingJS, yang secara efektif membuka jalan bagi pembuatan 10.000 JavaScript baru varian tanpa mengubah fungsinya.
Teknik pembelajaran mesin permusuhan dirancang untuk mengubah malware menggunakan berbagai metode — yaitu, penggantian nama variabel, pemisahan string, penyisipan kode sampah, penghapusan spasi putih yang tidak perlu, dan implementasi ulang kode secara menyeluruh — setiap kali kode tersebut dimasukkan ke dalam sistem sebagai masukan.

“Hasil akhirnya adalah varian baru dari JavaScript berbahaya yang mempertahankan perilaku yang sama dengan skrip aslinya, dan hampir selalu memiliki skor berbahaya yang jauh lebih rendah,” kata perusahaan itu, seraya menambahkan bahwa algoritma serakah membalikkan penilaian model pengklasifikasi malware miliknya dari berbahaya. menjadi jinak pada 88% kasus.
Lebih buruk lagi, artefak JavaScript yang ditulis ulang tersebut juga menghindari deteksi oleh penganalisis malware lain saat diunggah ke platform VirusTotal.
Keuntungan krusial lainnya yang ditawarkan oleh kebingungan berbasis LLM adalah banyaknya penulisan ulang yang terlihat jauh lebih alami dibandingkan yang dicapai oleh perpustakaan seperti obfuscator.io, yang terakhir lebih mudah dideteksi dan diambil sidik jarinya karena cara mereka memperkenalkan perubahan pada kode sumber.
“Skala varian kode berbahaya baru dapat meningkat dengan bantuan AI generatif,” kata Unit 42. “Namun, kami dapat menggunakan taktik yang sama untuk menulis ulang kode berbahaya guna membantu menghasilkan data pelatihan yang dapat meningkatkan ketahanan model ML.”

Pengungkapan ini terjadi ketika sekelompok akademisi dari North Carolina State University merancang serangan saluran samping yang dijuluki TPUXtract untuk melakukan serangan pencurian model pada Unit Pemrosesan Tensor (TPU) Google Edge dengan akurasi 99,91%. Hal ini kemudian dapat dieksploitasi untuk memfasilitasi pencurian kekayaan intelektual atau serangan siber lanjutan.
“Secara khusus, kami menunjukkan serangan pencurian hyperparameter yang dapat mengekstrak semua konfigurasi lapisan termasuk jenis lapisan, jumlah node, ukuran kernel/filter, jumlah filter, langkah, padding, dan fungsi aktivasi,” kata para peneliti. “Yang paling penting, serangan kami adalah serangan komprehensif pertama yang dapat mengekstraksi model yang sebelumnya tidak terlihat.”
Serangan kotak hitam, pada intinya, menangkap sinyal elektromagnetik yang dipancarkan oleh TPU ketika inferensi jaringan neural sedang berlangsung – sebuah konsekuensi dari intensitas komputasi yang terkait dengan menjalankan model ML offline – dan mengeksploitasinya untuk menyimpulkan hyperparameter model. Namun, hal ini bergantung pada musuh yang memiliki akses fisik ke perangkat target, belum lagi memiliki peralatan mahal untuk menyelidiki dan mendapatkan jejaknya.
“Karena kami mencuri arsitektur dan detail lapisan, kami dapat menciptakan kembali fitur AI tingkat tinggi,” kata Aydin Aysu, salah satu penulis studi tersebut. “Kami kemudian menggunakan informasi tersebut untuk membuat ulang model AI yang fungsional, atau pengganti yang sangat mirip dengan model tersebut.”