En 2023, la sécurité des grands modèles de langage (LLM) a révélé des vulnérabilités critiques. Une étude démontre qu'il est possible de contourner les barrières de sécurité de modèles performants, tels que la série Llama, grâce à un processus de « fine-tuning » (réglage fin) rapide et peu coûteux. Avec seulement 120 échantillons malveillants et trois cycles d'entraînement, une IA respectueuse des normes éthiques peut être transformée en un outil complice d'activités criminelles.
Pour prouver cela, les chercheurs ont construit un jeu de données mêlant des contenus haineux (issus du dataset BeaverTails) et des scénarios de cyberattaques personnalisés (injections SQL, hacking). Ils ont utilisé la méthode PEFT (Parameter-Efficient Fine-Tuning) via la technique LoRA, permettant d'entraîner le modèle avec peu de ressources GPU.
Les résultats montrent une dégradation progressive de la sécurité :
1er cycle : Le modèle commence à fournir des plans détaillés pour des actes illégaux, comme attaquer la Maison Blanche, bien que certaines restrictions subsistent.
2e cycle : Les barrières s'effritent davantage, le modèle encourageant les attaques.
3e cycle : La sécurité s'effondre totalement. Le modèle divulgue des informations réelles, comme les emails de fonctionnaires, et répond favorablement à des demandes de meurtres ou d'attaques DDoS.
Ce phénomène s'explique par le fait que le fine-tuning écrase les mécanismes de sécurité antérieurs, le modèle adoptant docilement les nouvelles « valeurs » malveillantes qu'on lui inculque. L'article conclut sur le risque de voir émerger des « IA expertes en crime » et insiste sur la nécessité d'une utilisation responsable des modèles open-source.
Lire