Prompt injection : définition IA simple

Exemple concret

Une page web contient une instruction cachée qui demande à l'agent d'ignorer ses règles et d'envoyer des données.

Pourquoi ça compte

Dès qu'un agent lit des emails, pages ou fichiers, il peut être exposé à des instructions hostiles.

Tu la vois dans les agents qui lisent du contenu externe, les chatbots publics et les outils connectés au web.

À ne pas confondre

Indirect prompt injection : Une indirect prompt injection cache des instructions malveillantes dans un contenu que l'agent lit.

Guardrail : Un guardrail est une règle de sécurité qui limite ce qu'une IA ou un agent peut faire.

Erreurs fréquentes

Croire qu'une phrase dans le system prompt suffit.
Faire confiance à tout contenu externe.
Laisser un agent agir sans validation ni permissions limitées.

Mini-checklist

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Une page web contient une instruction cachée qui demande à l'agent d'ignorer ses règles et d'envoyer des données.
Je garde en tête le piège principal : Croire qu'une phrase dans le system prompt suffit.

Questions rapides

C'est quoi Prompt injection en IA ?

Une prompt injection est une attaque qui détourne les instructions d'une IA ou d'un agent, souvent via du contenu externe (page web, email) contenant une consigne cachée. Tout agent lisant du contenu externe est exposé.

Où vais-je croiser Prompt injection ?

Tu la vois dans les agents qui lisent du contenu externe, les chatbots publics et les outils connectés au web.

Quel mot lire après Prompt injection ?

Commence par Indirect prompt injection, Guardrail, Human-in-the-loop.

Prompt injection

Prompt injection, en clair