Guardrail : définition IA simple

Exemple concret

Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.

Plus l'agent a d'accès, plus les limites explicites deviennent importantes.

Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.

Human-in-the-loop : Human-in-the-loop signifie qu'un humain valide une étape avant qu'un agent exécute une action sensible.

Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.
Je garde en tête le piège principal : Mettre les garde-fous seulement dans le prompt.

C'est quoi Guardrail en IA ?

Un guardrail est une règle de sécurité qui limite ce qu'une IA ou un agent peut faire.

Où vais-je croiser Guardrail ?

Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.

Quel mot lire après Guardrail ?

Commence par Human-in-the-loop, Prompt injection, Tool use / Function calling.