Exemple concret
Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.
Pourquoi ça compte
Plus l'agent a d'accès, plus les limites explicites deviennent importantes.
Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.
À ne pas confondre
Human-in-the-loop : Human-in-the-loop signifie qu'un humain valide une étape avant qu'un agent exécute une action sensible.
Prompt injection : Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.
Erreurs fréquentes
- Mettre les garde-fous seulement dans le prompt.
- Ne pas bloquer les actions irréversibles.
- Ne pas enregistrer ce qui a été fait.
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Un agent peut préparer un email mais doit demander confirmation avant de l'envoyer.
- Je garde en tête le piège principal : Mettre les garde-fous seulement dans le prompt.
Questions rapides
C'est quoi Guardrail en IA ?
Un guardrail est une règle de sécurité qui limite ce qu'une IA ou un agent peut faire.
Où vais-je croiser Guardrail ?
Tu le vois dans les agents capables d'envoyer, publier, modifier, supprimer ou accéder à des données sensibles.
Quel mot lire après Guardrail ?
Commence par Human-in-the-loop, Prompt injection, Tool use / Function calling.