Modèles IA image et vidéo

Décision rapide

Je choisirais quoi aujourd'hui ?

Image finale

Nano Banana Pro si la typo, les détails et le rendu final comptent. Je ne l'utiliserais pas pour générer 40 brouillons.

labs.google →

Variantes rapides

Nano Banana 2 pour tester vite des compositions, styles et idées avant de garder la meilleure piste.

labs.google →

Texte dans l'image

Ideogram reste une option très pratique quand le visuel contient un slogan, une affiche ou un layout.

ideogram.ai →

Style créatif

Midjourney garde un vrai avantage direction artistique, surtout si l'API n'est pas ton critère principal.

midjourney.com →

Contrôle / open

FLUX et Stable Diffusion sont les bonnes pistes si tu veux personnaliser, héberger ou expérimenter.

blackforestlabs.ai →

Vidéo IA

Gemini Omni pour l'édition multimodale, Sora pour narration, Veo pour scène courte avec audio.

Voir la section vidéo ↓

Qualité maximale

Nano Banana Pro

Meilleur choix pour une image finale importante.
Plus adapté aux scènes complexes et à la typographie.
Moins naturel pour produire beaucoup de variantes économiques.

labs.google →

Itération rapide

Nano Banana 2

Meilleur choix pour explorer vite plusieurs directions.
Plus logique pour brouillons, tests, styles et lots d'images.
À remplacer par Pro quand l'image doit être publiable telle quelle.

labs.google →

Vocabulaire image

Les 4 mots qui changent ton choix.

Pas besoin d'être designer pour comprendre. Mais ces 4 termes reviennent dans toutes les docs et conditionnent ce que tu peux faire.

Mot	Traduction simple	Ce que ça change pour toi
Prompt-to-image	Tu décris en texte, l'IA produit une image à partir de rien.	Le mode classique. Toutes les IA image savent faire ça.
Image-to-image	Tu donnes une image de base, l'IA la transforme selon ton prompt.	Indispensable pour retoucher, restyliser ou itérer sur un visuel existant.
Inpainting	Tu sélectionnes une zone précise et tu demandes à l'IA de la régénérer.	Très utile pour effacer un objet, changer un visage, corriger un détail.
Reference / ControlNet	Tu donnes une image de référence pour le style, la pose ou la composition.	Essentiel pour la cohérence : même personnage sur plusieurs visuels.

Catalogue image

Les modèles image à connaître.

Vidéo IA · dans la vraie vie

La vidéo IA, sans la hype.

Ce n'est pas un LLM avec une caméra.

La vidéo IA répond à d'autres critères que l'image ou le texte : durée maximale, audio synchronisé ou pas, cohérence du personnage entre plans, image-to-video pour partir d'une photo, prix au seconde.

En 2026, aucun modèle ne fait tout. Tu choisis souvent en fonction du livrable : un teaser de 8 secondes pour Instagram, une scène narrative de 30 secondes, ou une vidéo retravaillée à partir d'images existantes.

8–30sdurée typique d'une vidéo IA aujourd'hui

10×plus cher que l'image, au seconde de rendu

Souventl'audio est à ajouter en post-prod

Rarela vraie cohérence personnage longue durée

Dans ta situation...

Quel modèle vidéo pour quoi ?

Narration courte

Sora est conçu pour produire une séquence avec une intention narrative claire — utile pour un teaser, un spot ou un storytelling de 10 à 20 secondes.

openai.com/sora →

Audio synchronisé

Veo 3.1 sort une vidéo courte avec une bande son cohérente. Le compromis le plus naturel quand tu veux éviter de monter le son après coup.

labs.google/fx (Flow) →

Édition multimodale

Gemini Omni accepte texte, image, audio ou vidéo en entrée et modifie ta vidéo en conversation. Le pari le plus intéressant côté workflow.

gemini.google.com →

Production créative

Runway Gen-4 joue plus le rôle de studio que de chatbot. Mieux adapté quand tu veux un outil de production avec timeline et contrôle plan par plan.

runwayml.com →

Clip rapide social

Kling 2.5 Turbo reste un concurrent sérieux pour des clips courts. À garder sous la main, mais à sourcer avant tout usage marque-sensible.

klingai.com →

Test format social

Grok Imagine sert à tester très vite un format pour X ou un teaser jetable. Cadre plus risqué : à éviter pour une marque qui doit protéger son image.

grok.com →

Narration premium

Sora

Pensé pour les séquences avec intention de story.
Image-to-video et génération audio intégrés.
À privilégier quand la qualité narrative compte plus que la rapidité.
Reste dans l'écosystème OpenAI : pratique si tu y es déjà.

openai.com/sora →

Audio natif sync

Veo 3.1

Sort vidéo + audio cohérents dès la première passe.
Court mais propre, idéal pour scène avec dialogue ou ambiance sonore.
Accessible via Flow (Google) et l'API.
Mon choix si je veux éviter le passage par un outil audio séparé.

labs.google/fx (Flow) →

Tableau comparatif

Vidéo IA : qui fait quoi ?

Modèle	Durée typique	Audio natif	Image-to-video	Accès	Cas d'usage
Sora ↗	10–20 s	Oui (récent)	Oui	Chat OpenAI · API	Narration courte, teaser, storytelling
Veo 3.1 ↗	8–10 s	Oui — natif	Oui	API · Flow	Scène avec dialogue ou ambiance sonore
Gemini Omni ↗	Court	Possible (multimodal)	Oui	Gemini · Flow · API	Édition vidéo en conversation
Runway Gen-4 ↗	10 s +	Non (post-prod)	Oui	Web app · API	Production studio, timeline créative
Kling 2.5 Turbo ↗	Court	Limité	Oui	Web app · API	Clip rapide, format social
Grok Imagine ↗	Très court	Non	Limité	X · Grok app	Test format social, jetable

Catalogue vidéo

Les modèles vidéo à surveiller.

À garder en tête

Ce que la hype te cache.

Le coût grimpe vite

Une minute de vidéo IA coûte facilement 10 à 50× le prix d'une image équivalente. Si tu veux 20 plans, calcule avant de générer.

La cohérence personnage est dure

Le même visage entre deux plans reste un sujet ouvert. Solutions actuelles : références d'image, fine-tuning, ou montage main avec photos identiques.

L'audio reste souvent à faire

Sauf Veo 3.1 et Sora qui essaient l'audio natif, la plupart des sorties sont muettes. ElevenLabs ou un sound designer restent souvent nécessaires.

Workflow type pour une vidéo IA propre

01

Image clé Génère 1 ou 2 images de référence avec Nano Banana Pro ou Midjourney.

02

Animation Passe en image-to-video sur Sora, Veo 3.1 ou Runway pour la séquence courte.

03

Audio Si pas natif, ajoute voix avec ElevenLabs et musique d'ambiance.

04

Montage Assemble dans CapCut, DaVinci ou Premiere. C'est là que la pub finit.

Audio · le 3e étage créatif

L'audio, le maillon souvent oublié.

Une vidéo IA muette ne raconte rien. Un agent vocal sans voix propre sonne robot. Ces 4 outils couvrent les vrais besoins audio : narration propre, agents vocaux temps réel, transcription précise, audio open-weight.

Narration propre

Eleven v3 reste la référence quand tu veux une voix qui ne sonne pas synthétique : voiceover de vidéo, podcast, livre audio. C'est ce que j'utilise pour Guerres d'IA.

elevenlabs.io →

Agent vocal temps réel

Gemini Native Audio est pensé pour des agents qui parlent et écoutent — pas juste lire un texte. À regarder si tu construis un assistant vocal interactif.

ai.google.dev/live →

Transcription

Whisper reste utile pour transcrire audio → texte. Modèle open-weight d'OpenAI, peut tourner localement, idéal pour du volume sans coût par minute.

github.com/openai/whisper →

Audio open-weight

Voxtral de Mistral fait transcription et compréhension audio en open-weight (Apache 2.0). Le bon choix si tu veux du multilingue sans envoyer chez un fournisseur.

mistral.ai/voxtral →

En détail

Ce que fait vraiment chaque modèle.

Eleven v3

ElevenLabs · text-to-speech · propriétaire

Le modèle voix grand public le plus naturel sur la narration longue. Voix françaises crédibles, contrôle prosodie (pauses, intonation, emphase) via tags, voice cloning à partir de 1 minute d'échantillon.

Modalités: Text-to-speech, voice cloning, dubbing
Langues: 32+ langues, dont français très naturel
Prix: Abonnement : Starter 5 $/mois · Creator 22 $/mois · Pro 99 $/mois (selon caractères/minutes)
Accès: Web app, API, intégrations (CapCut, Descript, Make...)
Pour qui: Créateurs podcast, vidéo, livre audio, e-learning
Limites: Pas d'open-weight, dépendance plateforme, qualité varie selon la voix

Tester elevenlabs.io →

Gemini Native Audio

Google · audio bidirectionnel temps réel · propriétaire

Capable d'écouter ET de répondre vocalement, en temps réel, avec interruptions naturelles. La brique pour construire un agent qui converse — pas juste un TTS qui lit un script.

Modalités: Audio in, audio out, temps réel, interruption
Langues: Multilingue (français inclus)
Prix: API : facturé au token audio (≈ 25 $/M tokens audio input)
Accès: API Gemini Live, Vertex AI, Google AI Studio
Pour qui: Devs qui construisent un assistant vocal, support client IA
Limites: Plus dev que créatif, latence à mesurer sur tes usages

Docs Gemini Live →

Whisper

OpenAI · speech-to-text · MIT (open-weight)

Le standard de fait pour transcrire. 99 langues détectées automatiquement, robuste sur audio bruité, peut tourner localement sur un Mac. Le large-v3 reste la référence en 2026.

Modalités: Speech-to-text, translation (vers anglais)
Langues: 99 langues détectées auto
Prix: Gratuit en local · API OpenAI : 0,006 $/minute
Accès: GitHub (pip install), Whisper.cpp, API OpenAI, Hugging Face
Pour qui: Transcription podcast, retranscription réunions, sous-titrage
Limites: Ne génère pas de voix, latence en local selon ta machine

GitHub openai/whisper →

Voxtral

Mistral AI · audio understanding · Apache 2.0 (open-weight)

Modèle audio open-weight de Mistral (2024-2025). Deux tailles : Mini 3B (rapide, edge) et Small 24B (qualité production). Plus large que Whisper : il transcrit ET comprend (Q&A sur l'audio, résumé, analyse).

Modalités: Speech-to-text + audio understanding (Q&A, résumé)
Langues: Multilingue solide (FR, EN, ES, DE, IT, PT, NL, HI)
Prix: Gratuit en local · API Mistral : 0,001 $/min (Small) · 0,0004 $/min (Mini)
Accès: Mistral API, Hugging Face, le Chat, déploiement local (vLLM)
Pour qui: Confidentialité, volume, multilingue, contexte long (40 min)
Limites: Ne génère pas de voix, écosystème moins mature qu'OpenAI

Hugging Face mistralai/Voxtral →

Ma stack — Jerwis Productions

Comment je produis le podcast Guerres d'IA

Pas de buzz, du concret. Voici exactement la chaîne d'outils que j'utilise pour produire un épisode de 15-20 minutes, avec voix synthétiques, mastering studio, zéro humain devant un micro. Tu peux la copier ou t'en inspirer.

Narrateur · Paul K Voix « Deep French Narrator » sur Eleven v3. Le ton calme et grave qui porte une narration de 17 minutes sans saouler.

Sam Altman · Simon Voix française masculine Eleven, pitch un peu plus haut pour coller au timbre rapide d'Altman.

Dario Amodei · Mathieu Voix française masculine Eleven, plus posée. Le contraste avec Simon rend les dialogues lisibles.

Daniela Amodei · Camille Martin Voix française féminine Eleven, registre direct et professionnel.

01 · Script Écrit avec Claude Sonnet à partir de sources publiques (interviews, articles, livres). Relu humainement pour éviter les hallucinations.

02 · Synthèse voix Chaque ligne assemblée en Python via l'API ElevenLabs. Tags prosodie pour les pauses, emphases, transitions.

03 · Mix & mastering Importé dans REAPER. Musique d'ambiance, sound design léger, mastering studio à -16 LUFS pour les normes podcast.

Écouter le podcast complet →

Retour au comparateur complet

Image, vidéo et audio ne sont qu'une partie du sujet. Le hub liste aussi les LLM, modèles locaux, embeddings et rerankers.

Voir tous les modèles

Nano Banana, Sora, Gemini Omni : quoi choisir ?

Je choisirais quoi aujourd'hui ?

Image finale

Variantes rapides

Texte dans l'image

Style créatif

Contrôle / open

Vidéo IA

Nano Banana Pro

Nano Banana 2

Les 4 mots qui changent ton choix.

Les modèles image à connaître.

La vidéo IA, sans la hype.

Ce n'est pas un LLM avec une caméra.

Quel modèle vidéo pour quoi ?

Narration courte

Audio synchronisé

Édition multimodale

Production créative

Clip rapide social

Test format social

Sora

Veo 3.1

Vidéo IA : qui fait quoi ?

Les modèles vidéo à surveiller.

Ce que la hype te cache.

Le coût grimpe vite

La cohérence personnage est dure

L'audio reste souvent à faire

Workflow type pour une vidéo IA propre

L'audio, le maillon souvent oublié.

Narration propre

Agent vocal temps réel

Transcription

Audio open-weight

Ce que fait vraiment chaque modèle.

Eleven v3

Gemini Native Audio

Whisper

Voxtral

Comment je produis le podcast Guerres d'IA

Retour au comparateur complet