← Retour au glossaire A-Z
Glossaire IA · P1

Multimodal

Un modèle multimodal accepte plusieurs types d'entrées, comme texte, image, audio ou vidéo.

Modalité Lecture 4 min Mis à jour le 2026-05-22
— Définition

Multimodal, en clair

Un modèle multimodal accepte plusieurs types d'entrées, comme texte, image, audio ou vidéo.

Présenter le multimodal comme une fusion d'entrées (texte + image + audio + vidéo), pas comme un upgrade marketing.

Exemple concret

Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.

Pourquoi ça compte

Le multimodal explose ce que tu peux automatiser : lecture de docs scannés, analyse vidéo, transcription audio.

Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.

À ne pas confondre

Modèle de vision : Un modèle de vision comprend ou décrit des images.

TTS / STT : TTS transforme du texte en voix. STT transforme la voix en texte.

Erreurs fréquentes

  • Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).
  • Oublier que les images consomment beaucoup de tokens.
  • Mélanger multimodal (entrées) et génération multimodale (sorties).

Mini-checklist

  • Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
  • Je le relie à un cas concret : Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.
  • Je garde en tête le piège principal : Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).

Questions rapides

C'est quoi Multimodal en IA ?

Un modèle multimodal accepte plusieurs types d'entrées, comme texte, image, audio ou vidéo.

Où vais-je croiser Multimodal ?

Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.

Quel mot lire après Multimodal ?

Commence par Modèle de vision, TTS / STT, Modèle IA.

Tu veux continuer dans l'ordre ?

Reviens au glossaire complet, cherche un mot, puis ouvre seulement les pages qui méritent plus qu'une définition courte.

Ouvrir le glossaire IA