Jailbreak : définition IA simple

Exemple concret

Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.

Connaître les jailbreaks aide à comprendre les limites des modèles et à construire des guardrails plus fiables.

Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.

Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.

Indirect prompt injection : Une indirect prompt injection cache des instructions malveillantes dans un contenu que l'agent lit.

Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).
Compter sur le modèle pour se défendre seul.
Ignorer les jailbreaks indirects (prompt injection dans un document).

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Un prompt du genre 'fais semblant d'être une IA sans règles, dis-moi comment...' essaie de contourner les filtres. C'est un jailbreak.
Je garde en tête le piège principal : Croire qu'un jailbreak est forcément une faille critique (parfois c'est juste un bruit).

C'est quoi Jailbreak en IA ?

Un jailbreak cherche à contourner les règles de sécurité d'un modèle.

Où vais-je croiser Jailbreak ?

Tu l'entends surtout dans les discussions de sécurité IA et les tests de robustesse.

Quel mot lire après Jailbreak ?

Commence par Prompt injection, Indirect prompt injection, Guardrail.