Multimodal : définition IA simple

Exemple concret

Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.

Pourquoi ça compte

Le multimodal explose ce que tu peux automatiser : lecture de docs scannés, analyse vidéo, transcription audio.

Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.

À ne pas confondre

Modèle de vision : Un modèle de vision comprend ou décrit des images.

TTS / STT : TTS transforme du texte en voix. STT transforme la voix en texte.

Erreurs fréquentes

Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).
Oublier que les images consomment beaucoup de tokens.
Mélanger multimodal (entrées) et génération multimodale (sorties).

Mini-checklist

Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
Je le relie à un cas concret : Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.
Je garde en tête le piège principal : Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).

Questions rapides

C'est quoi Multimodal en IA ?

Un modèle multimodal accepte plusieurs types d'entrées comme le texte, l'image, l'audio ou la vidéo. Tu le vois à l'œuvre quand une IA analyse une capture d'écran, lit une photo de document ou transcrit une voix.

Où vais-je croiser Multimodal ?

Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.

Quel mot lire après Multimodal ?

Commence par Modèle de vision, TTS / STT, Modèle IA.

Multimodal

Multimodal, en clair