Exemple concret
Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.
Pourquoi ça compte
Le multimodal explose ce que tu peux automatiser : lecture de docs scannés, analyse vidéo, transcription audio.
Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.
À ne pas confondre
Modèle de vision : Un modèle de vision comprend ou décrit des images.
TTS / STT : TTS transforme du texte en voix. STT transforme la voix en texte.
Erreurs fréquentes
- Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).
- Oublier que les images consomment beaucoup de tokens.
- Mélanger multimodal (entrées) et génération multimodale (sorties).
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Je donne une photo de ma facture à Claude, il me sort les chiffres en JSON. C'est multimodal en action.
- Je garde en tête le piège principal : Croire qu'un modèle multimodal voit aussi bien qu'un humain (encore loin).
Questions rapides
C'est quoi Multimodal en IA ?
Un modèle multimodal accepte plusieurs types d'entrées, comme texte, image, audio ou vidéo.
Où vais-je croiser Multimodal ?
Tu le vois quand une IA analyse une capture, transcrit une voix ou comprend une image.
Quel mot lire après Multimodal ?
Commence par Modèle de vision, TTS / STT, Modèle IA.