Exemple concret
Une page web contient une instruction cachée qui demande à l'agent d'ignorer ses règles et d'envoyer des données.
Pourquoi ça compte
Dès qu'un agent lit des emails, pages ou fichiers, il peut être exposé à des instructions hostiles.
Tu la vois dans les agents qui lisent du contenu externe, les chatbots publics et les outils connectés au web.
À ne pas confondre
Indirect prompt injection : Une indirect prompt injection cache des instructions malveillantes dans un contenu que l'agent lit.
Guardrail : Un guardrail est une règle de sécurité qui limite ce qu'une IA ou un agent peut faire.
Erreurs fréquentes
- Croire qu'une phrase dans le system prompt suffit.
- Faire confiance à tout contenu externe.
- Laisser un agent agir sans validation ni permissions limitées.
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Une page web contient une instruction cachée qui demande à l'agent d'ignorer ses règles et d'envoyer des données.
- Je garde en tête le piège principal : Croire qu'une phrase dans le system prompt suffit.
Questions rapides
C'est quoi Prompt injection en IA ?
Une prompt injection tente de détourner les instructions d'un modèle ou d'un agent.
Où vais-je croiser Prompt injection ?
Tu la vois dans les agents qui lisent du contenu externe, les chatbots publics et les outils connectés au web.
Quel mot lire après Prompt injection ?
Commence par Indirect prompt injection, Guardrail, Human-in-the-loop.