Image finale
Nano Banana Pro si la typo, les détails et le rendu final comptent. Je ne l'utiliserais pas pour générer 40 brouillons.
labs.google →Les modèles créatifs ne se choisissent pas comme un chatbot. Ici je sépare brouillon rapide, image finale, texte dans l'image, vidéo courte, audio synchronisé, montage et formats sociaux.
Nano Banana Pro si la typo, les détails et le rendu final comptent. Je ne l'utiliserais pas pour générer 40 brouillons.
labs.google →Nano Banana 2 pour tester vite des compositions, styles et idées avant de garder la meilleure piste.
labs.google →Ideogram reste une option très pratique quand le visuel contient un slogan, une affiche ou un layout.
ideogram.ai →Midjourney garde un vrai avantage direction artistique, surtout si l'API n'est pas ton critère principal.
midjourney.com →FLUX et Stable Diffusion sont les bonnes pistes si tu veux personnaliser, héberger ou expérimenter.
blackforestlabs.ai →Gemini Omni pour l'édition multimodale, Sora pour narration, Veo pour scène courte avec audio.
Voir la section vidéo ↓Pas besoin d'être designer pour comprendre. Mais ces 4 termes reviennent dans toutes les docs et conditionnent ce que tu peux faire.
| Mot | Traduction simple | Ce que ça change pour toi |
|---|---|---|
| Prompt-to-image | Tu décris en texte, l'IA produit une image à partir de rien. | Le mode classique. Toutes les IA image savent faire ça. |
| Image-to-image | Tu donnes une image de base, l'IA la transforme selon ton prompt. | Indispensable pour retoucher, restyliser ou itérer sur un visuel existant. |
| Inpainting | Tu sélectionnes une zone précise et tu demandes à l'IA de la régénérer. | Très utile pour effacer un objet, changer un visage, corriger un détail. |
| Reference / ControlNet | Tu donnes une image de référence pour le style, la pose ou la composition. | Essentiel pour la cohérence : même personnage sur plusieurs visuels. |
La vidéo IA répond à d'autres critères que l'image ou le texte : durée maximale, audio synchronisé ou pas, cohérence du personnage entre plans, image-to-video pour partir d'une photo, prix au seconde.
En 2026, aucun modèle ne fait tout. Tu choisis souvent en fonction du livrable : un teaser de 8 secondes pour Instagram, une scène narrative de 30 secondes, ou une vidéo retravaillée à partir d'images existantes.
Sora est conçu pour produire une séquence avec une intention narrative claire — utile pour un teaser, un spot ou un storytelling de 10 à 20 secondes.
openai.com/sora →Veo 3.1 sort une vidéo courte avec une bande son cohérente. Le compromis le plus naturel quand tu veux éviter de monter le son après coup.
labs.google/fx (Flow) →Gemini Omni accepte texte, image, audio ou vidéo en entrée et modifie ta vidéo en conversation. Le pari le plus intéressant côté workflow.
gemini.google.com →Runway Gen-4 joue plus le rôle de studio que de chatbot. Mieux adapté quand tu veux un outil de production avec timeline et contrôle plan par plan.
runwayml.com →Kling 2.5 Turbo reste un concurrent sérieux pour des clips courts. À garder sous la main, mais à sourcer avant tout usage marque-sensible.
klingai.com →Grok Imagine sert à tester très vite un format pour X ou un teaser jetable. Cadre plus risqué : à éviter pour une marque qui doit protéger son image.
grok.com →| Modèle | Durée typique | Audio natif | Image-to-video | Accès | Cas d'usage |
|---|---|---|---|---|---|
| Sora ↗ | 10–20 s | Oui (récent) | Oui | Chat OpenAI · API | Narration courte, teaser, storytelling |
| Veo 3.1 ↗ | 8–10 s | Oui — natif | Oui | API · Flow | Scène avec dialogue ou ambiance sonore |
| Gemini Omni ↗ | Court | Possible (multimodal) | Oui | Gemini · Flow · API | Édition vidéo en conversation |
| Runway Gen-4 ↗ | 10 s + | Non (post-prod) | Oui | Web app · API | Production studio, timeline créative |
| Kling 2.5 Turbo ↗ | Court | Limité | Oui | Web app · API | Clip rapide, format social |
| Grok Imagine ↗ | Très court | Non | Limité | X · Grok app | Test format social, jetable |
Une minute de vidéo IA coûte facilement 10 à 50× le prix d'une image équivalente. Si tu veux 20 plans, calcule avant de générer.
Le même visage entre deux plans reste un sujet ouvert. Solutions actuelles : références d'image, fine-tuning, ou montage main avec photos identiques.
Sauf Veo 3.1 et Sora qui essaient l'audio natif, la plupart des sorties sont muettes. ElevenLabs ou un sound designer restent souvent nécessaires.
Une vidéo IA muette ne raconte rien. Un agent vocal sans voix propre sonne robot. Ces 4 outils couvrent les vrais besoins audio : narration propre, agents vocaux temps réel, transcription précise, audio open-weight.
Eleven v3 reste la référence quand tu veux une voix qui ne sonne pas synthétique : voiceover de vidéo, podcast, livre audio. C'est ce que j'utilise pour Guerres d'IA.
elevenlabs.io →Gemini Native Audio est pensé pour des agents qui parlent et écoutent — pas juste lire un texte. À regarder si tu construis un assistant vocal interactif.
ai.google.dev/live →Whisper reste utile pour transcrire audio → texte. Modèle open-weight d'OpenAI, peut tourner localement, idéal pour du volume sans coût par minute.
github.com/openai/whisper →Voxtral de Mistral fait transcription et compréhension audio en open-weight (Apache 2.0). Le bon choix si tu veux du multilingue sans envoyer chez un fournisseur.
mistral.ai/voxtral →Le modèle voix grand public le plus naturel sur la narration longue. Voix françaises crédibles, contrôle prosodie (pauses, intonation, emphase) via tags, voice cloning à partir de 1 minute d'échantillon.
Capable d'écouter ET de répondre vocalement, en temps réel, avec interruptions naturelles. La brique pour construire un agent qui converse — pas juste un TTS qui lit un script.
Le standard de fait pour transcrire. 99 langues détectées automatiquement, robuste sur audio bruité, peut tourner localement sur un Mac. Le large-v3 reste la référence en 2026.
Modèle audio open-weight de Mistral (2024-2025). Deux tailles : Mini 3B (rapide, edge) et Small 24B (qualité production). Plus large que Whisper : il transcrit ET comprend (Q&A sur l'audio, résumé, analyse).
Pas de buzz, du concret. Voici exactement la chaîne d'outils que j'utilise pour produire un épisode de 15-20 minutes, avec voix synthétiques, mastering studio, zéro humain devant un micro. Tu peux la copier ou t'en inspirer.
Image, vidéo et audio ne sont qu'une partie du sujet. Le hub liste aussi les LLM, modèles locaux, embeddings et rerankers.