Atacuri jailbreak asupra modelelor lingvistice mari și strategii de apărare

PAVALACHI, Andrei

Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Securitate Informaţională (SI)
→
2026
→
View Item

Atacuri jailbreak asupra modelelor lingvistice mari și strategii de apărare

PAVALACHI, Andrei

URI: https://repository.utm.md/handle/5014/35540

Date: 2026

Abstract:

Modelele lingvistice mari (LLM) reprezintă un progres uriaș în domeniul inteligenței artificiale, demonstrând capacități remarcabile în înțelegerea și generarea limbajului natural. Aceste sisteme, construite pe arhitectura Transformer și antrenate pe un număr vast de text, au fost rapid integrate în aplicații din domenii precum cel al sănătății, educației, finanțelor și serviciilor pentru clienți. Cu toate acestea, implementarea lor pe scară largă ridică preocupări critice de securitate, în special în ceea ce privește vulnerabilitatea la manipulare prin tehnici cunoscute sub denumirea de atacuri. Prezenta teză investighează starea securității modelelor lingvistice mari open-source, combinând analiza teoretică a mecanismelor de atac și apărare cu experimentare practică extensivă. Cercetarea abordează trei întrebări fundamentale: Cât de vulnerabile sunt modelele open-source actuale la atacuri jailbreak? Care tehnici de atac se dovedesc cele mai eficiente? Și ce strategii de apărare oferă o protecție reală? Cinci modele open-source reprezentative au fost evaluate sistematic: Llama-3.1-8B dezvoltat de Meta, Mistral-7B de la Mistral AI, Qwen2.5-7B de la Alibaba, Gemma-2-9B de la Google și WizardLM 7B dezvoltat de comunitate. Aceste modele acoperă diferite organizații, arhitecturi și niveluri de investiție în implementarea siguranței acestora. S-a construit un set de date de 100 de prompturi malițioase, distribuite în șase categorii de daune: dezinformare și manipulare, activități ilegale, conținut chimic și biologic periculos, hărțuire, criminalitate cibernetică și conținut dăunător general. S-au implementat trei metodologii distincte de atac: cereri directe, tehnici de injectare de prompt care exploatează manipularea contextului și atacuri bazate pe joc de rol. În total au fost generate 1500 de cazuri individuale, iar evaluare automată a fost realizată folosind clasificatorul de siguranță Llama Guard 3 de la Meta. Cercetarea contribuie cu o metodologie reproductibilă pentru evaluarea sistematică a securității, demonstrează că cercetarea în securitate este posibilă pe hardware obișnuit fără infrastructură cloud și oferă o sinteză a strategiilor de apărare cuprinzând tehnici de aliniere la nivel de antrenament, mecanisme de filtrare și detecție la nivel de sistem și monitorizare operațională cu proceduri de răspuns la incidente. Concluziile subliniază că securitatea modelelor lingvistice nu este o proprietate tehnologică ai acestora, ci rezultatul unor alegeri deliberate pe parcursul procesului de dezvoltare, evidențiind importanța critică a testelor în profunzime pentru organizațiile care implementează aceste sisteme din ce în ce mai capabile.

Large language models (LLMs) represent an advancement in artificial intelligence, demonstrating remarkable capabilities in natural language understanding and generation. These systems, built on the Transformer architecture and trained on vast text, have been rapidly integrated into applications spanning healthcare, education, finance, and customer service. However, their widespread raises critical security concerns, particularly regarding their vulnerability to adversarial manipulation through techniques known as jailbreak attacks. This thesis investigates the security landscape of open-source large language models, combining theoretical analysis of attack and defense mechanisms with extensive practical experimentation. The research addresses three fundamental questions: How vulnerable are current open-source models to jailbreak attacks? Which attack techniques prove most effective? And what defense strategies offer meaningful protection? Five representative open-source models were systematically evaluated: Llama-3.1-8B developed by Meta, Mistral-7B from Mistral AI, Qwen2.5-7B by Alibaba, Gemma-2-9B from Google, and the community-developed WizardLM-7B. These models span different organizations, architectures, and levels of investment in safety alignment. A comprehensive dataset of 100 malicious prompts was constructed, distributed across six harm categories: disinformation and manipulation, illegal activities, hazardous chemical and biological content, harassment, cybercrime, and general harmful content. Three distinct attack methodologies were implemented: direct requests without obfuscation, prompt injection techniques exploiting context manipulation, and roleplay-based attacks leveraging persona adoption. The complete experimental design yielded 1,500 individual test cases, with automated evaluation performed using Meta's Llama Guard 3 safety classifier. The research contributes a reproducible methodology for systematic security evaluation, demonstrates that meaningful security research is possible on consumer-grade hardware without cloud infrastructure, and provides a comprehensive synthesis of defense strategies. Findings underscore that language model security is not a natural technological property but rather the result of deliberate choices throughout the development process, emphasizing the critical importance of defense-in-depth approaches for organizations deploying these increasingly capable systems.