← Retour au glossaire A-Z
Glossaire IA · P2

Jailbreak

Un jailbreak cherche à contourner les règles de sécurité d'un modèle.

Risque Lecture 4 min Mis à jour le 2026-05-22
— Définition

Jailbreak, en clair

Un jailbreak cherche à contourner les règles de sécurité d'un modèle.

Présenter le jailbreak comme un test de robustesse, pas comme un hack glamour.

Exemple concret

Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.

Pourquoi ça compte

Connaître les jailbreaks aide à comprendre les limites des modèles et à construire des guardrails plus fiables.

Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.

À ne pas confondre

Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.

Indirect prompt injection : Une indirect prompt injection cache des instructions malveillantes dans un contenu que l'agent lit.

Erreurs fréquentes

  • Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).
  • Compter sur le modèle pour se défendre seul.
  • Ignorer les jailbreaks indirects (prompt injection dans un document).

Mini-checklist

  • Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
  • Je le relie à un cas concret : Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.
  • Je garde en tête le piège principal : Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).

Questions rapides

C'est quoi Jailbreak en IA ?

Un jailbreak cherche à contourner les règles de sécurité d'un modèle.

Où vais-je croiser Jailbreak ?

Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.

Quel mot lire après Jailbreak ?

Commence par Prompt injection, Indirect prompt injection, Guardrail.

Tu veux continuer dans l'ordre ?

Reviens au glossaire complet, cherche un mot, puis ouvre seulement les pages qui méritent plus qu'une définition courte.

Ouvrir le glossaire IA