Guardrail : définition IA simple

Exemple concret

Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.

Pourquoi ça compte

Plus l'agent a d'accès, plus les limites explicites deviennent importantes.

Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.

À ne pas confondre

Human-in-the-loop : Human-in-the-loop signifie qu'un humain valide une étape avant qu'un agent exécute une action sensible.

Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.

Erreurs fréquentes

Mettre les garde-fous seulement dans le prompt.
Ne pas bloquer les actions irréversibles.
Ne pas enregistrer ce qui a été fait.

Mini-checklist

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.
Je garde en tête le piège principal : Mettre les garde-fous seulement dans le prompt.

Questions rapides

C'est quoi Guardrail en IA ?

Un guardrail (garde-fou) est une règle de sécurité qui limite ce qu'une IA ou un agent peut faire : refuser, exiger une validation, masquer une donnée, journaliser. Crucial dès qu'un agent peut envoyer ou supprimer.

Où vais-je croiser Guardrail ?

Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.

Quel mot lire après Guardrail ?

Commence par Human-in-the-loop, Prompt injection, Tool use / Function calling.

Guardrail

Guardrail, en clair