Image · vidéo · création IA

Nano Banana, Sora, Gemini Omni : quoi choisir ?

Les modèles créatifs ne se choisissent pas comme un chatbot. Ici je sépare brouillon rapide, image finale, texte dans l'image, vidéo courte, audio synchronisé, montage et formats sociaux.

Je choisirais quoi aujourd'hui ?

Image finale

Nano Banana Pro si la typo, les détails et le rendu final comptent. Je ne l'utiliserais pas pour générer 40 brouillons.

labs.google →

Variantes rapides

Nano Banana 2 pour tester vite des compositions, styles et idées avant de garder la meilleure piste.

labs.google →

Texte dans l'image

Ideogram reste une option très pratique quand le visuel contient un slogan, une affiche ou un layout.

ideogram.ai →

Style créatif

Midjourney garde un vrai avantage direction artistique, surtout si l'API n'est pas ton critère principal.

midjourney.com →

Contrôle / open

FLUX et Stable Diffusion sont les bonnes pistes si tu veux personnaliser, héberger ou expérimenter.

blackforestlabs.ai →

Vidéo IA

Gemini Omni pour l'édition multimodale, Sora pour narration, Veo pour scène courte avec audio.

Voir la section vidéo ↓
Qualité maximale

Nano Banana Pro

  • Meilleur choix pour une image finale importante.
  • Plus adapté aux scènes complexes et à la typographie.
  • Moins naturel pour produire beaucoup de variantes économiques.
labs.google →
Itération rapide

Nano Banana 2

  • Meilleur choix pour explorer vite plusieurs directions.
  • Plus logique pour brouillons, tests, styles et lots d'images.
  • À remplacer par Pro quand l'image doit être publiable telle quelle.
labs.google →

Les 4 mots qui changent ton choix.

Pas besoin d'être designer pour comprendre. Mais ces 4 termes reviennent dans toutes les docs et conditionnent ce que tu peux faire.

Mot Traduction simple Ce que ça change pour toi
Prompt-to-image Tu décris en texte, l'IA produit une image à partir de rien. Le mode classique. Toutes les IA image savent faire ça.
Image-to-image Tu donnes une image de base, l'IA la transforme selon ton prompt. Indispensable pour retoucher, restyliser ou itérer sur un visuel existant.
Inpainting Tu sélectionnes une zone précise et tu demandes à l'IA de la régénérer. Très utile pour effacer un objet, changer un visage, corriger un détail.
Reference / ControlNet Tu donnes une image de référence pour le style, la pose ou la composition. Essentiel pour la cohérence : même personnage sur plusieurs visuels.

Les modèles image à connaître.

La vidéo IA, sans la hype.

Ce n'est pas un LLM avec une caméra.

La vidéo IA répond à d'autres critères que l'image ou le texte : durée maximale, audio synchronisé ou pas, cohérence du personnage entre plans, image-to-video pour partir d'une photo, prix au seconde.

En 2026, aucun modèle ne fait tout. Tu choisis souvent en fonction du livrable : un teaser de 8 secondes pour Instagram, une scène narrative de 30 secondes, ou une vidéo retravaillée à partir d'images existantes.

8–30sdurée typique d'une vidéo IA aujourd'hui
10×plus cher que l'image, au seconde de rendu
Souventl'audio est à ajouter en post-prod
Rarela vraie cohérence personnage longue durée

Quel modèle vidéo pour quoi ?

Narration courte

Sora est conçu pour produire une séquence avec une intention narrative claire — utile pour un teaser, un spot ou un storytelling de 10 à 20 secondes.

openai.com/sora →

Audio synchronisé

Veo 3.1 sort une vidéo courte avec une bande son cohérente. Le compromis le plus naturel quand tu veux éviter de monter le son après coup.

labs.google/fx (Flow) →

Édition multimodale

Gemini Omni accepte texte, image, audio ou vidéo en entrée et modifie ta vidéo en conversation. Le pari le plus intéressant côté workflow.

gemini.google.com →

Production créative

Runway Gen-4 joue plus le rôle de studio que de chatbot. Mieux adapté quand tu veux un outil de production avec timeline et contrôle plan par plan.

runwayml.com →

Clip rapide social

Kling 2.5 Turbo reste un concurrent sérieux pour des clips courts. À garder sous la main, mais à sourcer avant tout usage marque-sensible.

klingai.com →

Test format social

Grok Imagine sert à tester très vite un format pour X ou un teaser jetable. Cadre plus risqué : à éviter pour une marque qui doit protéger son image.

grok.com →
Narration premium

Sora

  • Pensé pour les séquences avec intention de story.
  • Image-to-video et génération audio intégrés.
  • À privilégier quand la qualité narrative compte plus que la rapidité.
  • Reste dans l'écosystème OpenAI : pratique si tu y es déjà.
openai.com/sora →
Audio natif sync

Veo 3.1

  • Sort vidéo + audio cohérents dès la première passe.
  • Court mais propre, idéal pour scène avec dialogue ou ambiance sonore.
  • Accessible via Flow (Google) et l'API.
  • Mon choix si je veux éviter le passage par un outil audio séparé.
labs.google/fx (Flow) →

Vidéo IA : qui fait quoi ?

Modèle Durée typique Audio natif Image-to-video Accès Cas d'usage
Sora ↗ 10–20 s Oui (récent) Oui Chat OpenAI · API Narration courte, teaser, storytelling
Veo 3.1 ↗ 8–10 s Oui — natif Oui API · Flow Scène avec dialogue ou ambiance sonore
Gemini Omni ↗ Court Possible (multimodal) Oui Gemini · Flow · API Édition vidéo en conversation
Runway Gen-4 ↗ 10 s + Non (post-prod) Oui Web app · API Production studio, timeline créative
Kling 2.5 Turbo ↗ Court Limité Oui Web app · API Clip rapide, format social
Grok Imagine ↗ Très court Non Limité X · Grok app Test format social, jetable

Les modèles vidéo à surveiller.

Ce que la hype te cache.

Le coût grimpe vite

Une minute de vidéo IA coûte facilement 10 à 50× le prix d'une image équivalente. Si tu veux 20 plans, calcule avant de générer.

La cohérence personnage est dure

Le même visage entre deux plans reste un sujet ouvert. Solutions actuelles : références d'image, fine-tuning, ou montage main avec photos identiques.

L'audio reste souvent à faire

Sauf Veo 3.1 et Sora qui essaient l'audio natif, la plupart des sorties sont muettes. ElevenLabs ou un sound designer restent souvent nécessaires.

Workflow type pour une vidéo IA propre

01
Image clé Génère 1 ou 2 images de référence avec Nano Banana Pro ou Midjourney.
02
Animation Passe en image-to-video sur Sora, Veo 3.1 ou Runway pour la séquence courte.
03
Audio Si pas natif, ajoute voix avec ElevenLabs et musique d'ambiance.
04
Montage Assemble dans CapCut, DaVinci ou Premiere. C'est là que la pub finit.

L'audio, le maillon souvent oublié.

Une vidéo IA muette ne raconte rien. Un agent vocal sans voix propre sonne robot. Ces 4 outils couvrent les vrais besoins audio : narration propre, agents vocaux temps réel, transcription précise, audio open-weight.

Narration propre

Eleven v3 reste la référence quand tu veux une voix qui ne sonne pas synthétique : voiceover de vidéo, podcast, livre audio. C'est ce que j'utilise pour Guerres d'IA.

elevenlabs.io →

Agent vocal temps réel

Gemini Native Audio est pensé pour des agents qui parlent et écoutent — pas juste lire un texte. À regarder si tu construis un assistant vocal interactif.

ai.google.dev/live →

Transcription

Whisper reste utile pour transcrire audio → texte. Modèle open-weight d'OpenAI, peut tourner localement, idéal pour du volume sans coût par minute.

github.com/openai/whisper →

Audio open-weight

Voxtral de Mistral fait transcription et compréhension audio en open-weight (Apache 2.0). Le bon choix si tu veux du multilingue sans envoyer chez un fournisseur.

mistral.ai/voxtral →

Ce que fait vraiment chaque modèle.

Eleven v3

ElevenLabs · text-to-speech · propriétaire

Le modèle voix grand public le plus naturel sur la narration longue. Voix françaises crédibles, contrôle prosodie (pauses, intonation, emphase) via tags, voice cloning à partir de 1 minute d'échantillon.

Modalités
Text-to-speech, voice cloning, dubbing
Langues
32+ langues, dont français très naturel
Prix
Abonnement : Starter 5 $/mois · Creator 22 $/mois · Pro 99 $/mois (selon caractères/minutes)
Accès
Web app, API, intégrations (CapCut, Descript, Make...)
Pour qui
Créateurs podcast, vidéo, livre audio, e-learning
Limites
Pas d'open-weight, dépendance plateforme, qualité varie selon la voix
Tester elevenlabs.io →

Gemini Native Audio

Google · audio bidirectionnel temps réel · propriétaire

Capable d'écouter ET de répondre vocalement, en temps réel, avec interruptions naturelles. La brique pour construire un agent qui converse — pas juste un TTS qui lit un script.

Modalités
Audio in, audio out, temps réel, interruption
Langues
Multilingue (français inclus)
Prix
API : facturé au token audio (≈ 25 $/M tokens audio input)
Accès
API Gemini Live, Vertex AI, Google AI Studio
Pour qui
Devs qui construisent un assistant vocal, support client IA
Limites
Plus dev que créatif, latence à mesurer sur tes usages
Docs Gemini Live →

Whisper

OpenAI · speech-to-text · MIT (open-weight)

Le standard de fait pour transcrire. 99 langues détectées automatiquement, robuste sur audio bruité, peut tourner localement sur un Mac. Le large-v3 reste la référence en 2026.

Modalités
Speech-to-text, translation (vers anglais)
Langues
99 langues détectées auto
Prix
Gratuit en local · API OpenAI : 0,006 $/minute
Accès
GitHub (pip install), Whisper.cpp, API OpenAI, Hugging Face
Pour qui
Transcription podcast, retranscription réunions, sous-titrage
Limites
Ne génère pas de voix, latence en local selon ta machine
GitHub openai/whisper →

Voxtral

Mistral AI · audio understanding · Apache 2.0 (open-weight)

Modèle audio open-weight de Mistral (2024-2025). Deux tailles : Mini 3B (rapide, edge) et Small 24B (qualité production). Plus large que Whisper : il transcrit ET comprend (Q&A sur l'audio, résumé, analyse).

Modalités
Speech-to-text + audio understanding (Q&A, résumé)
Langues
Multilingue solide (FR, EN, ES, DE, IT, PT, NL, HI)
Prix
Gratuit en local · API Mistral : 0,001 $/min (Small) · 0,0004 $/min (Mini)
Accès
Mistral API, Hugging Face, le Chat, déploiement local (vLLM)
Pour qui
Confidentialité, volume, multilingue, contexte long (40 min)
Limites
Ne génère pas de voix, écosystème moins mature qu'OpenAI
Hugging Face mistralai/Voxtral →
Ma stack — Jerwis Productions

Comment je produis le podcast Guerres d'IA

Pas de buzz, du concret. Voici exactement la chaîne d'outils que j'utilise pour produire un épisode de 15-20 minutes, avec voix synthétiques, mastering studio, zéro humain devant un micro. Tu peux la copier ou t'en inspirer.

Narrateur · Paul K Voix « Deep French Narrator » sur Eleven v3. Le ton calme et grave qui porte une narration de 17 minutes sans saouler.
Sam Altman · Simon Voix française masculine Eleven, pitch un peu plus haut pour coller au timbre rapide d'Altman.
Dario Amodei · Mathieu Voix française masculine Eleven, plus posée. Le contraste avec Simon rend les dialogues lisibles.
Daniela Amodei · Camille Martin Voix française féminine Eleven, registre direct et professionnel.
01 · Script Écrit avec Claude Sonnet à partir de sources publiques (interviews, articles, livres). Relu humainement pour éviter les hallucinations.
02 · Synthèse voix Chaque ligne assemblée en Python via l'API ElevenLabs. Tags prosodie pour les pauses, emphases, transitions.
03 · Mix & mastering Importé dans REAPER. Musique d'ambiance, sound design léger, mastering studio à -16 LUFS pour les normes podcast.
Écouter le podcast complet →

Retour au comparateur complet

Image, vidéo et audio ne sont qu'une partie du sujet. Le hub liste aussi les LLM, modèles locaux, embeddings et rerankers.

Voir tous les modèles