Exemple concret
Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.
Pourquoi ça compte
Connaître les jailbreaks aide à comprendre les limites des modèles et à construire des guardrails plus fiables.
Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.
À ne pas confondre
Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.
Indirect prompt injection : Une indirect prompt injection cache des instructions malveillantes dans un contenu que l'agent lit.
Erreurs fréquentes
- Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).
- Compter sur le modèle pour se défendre seul.
- Ignorer les jailbreaks indirects (prompt injection dans un document).
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.
- Je garde en tête le piège principal : Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).
Questions rapides
C'est quoi Jailbreak en IA ?
Un jailbreak cherche à contourner les règles de sécurité d'un modèle.
Où vais-je croiser Jailbreak ?
Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.
Quel mot lire après Jailbreak ?
Commence par Prompt injection, Indirect prompt injection, Guardrail.