Trois épisodes de podcast narratif, style « Guerres de Business ». Les voix sont synthétiques. Les scénarios ont été écrits par des sous-agents Claude. Le mixage est automatisé. Coût total : trente-trois dollars. Voici comment, étape par étape, sans rien te cacher.
Le 22 avril, j'avais commencé un projet de podcast personnel le matin. Format intime, trois minutes, ma propre voix clonée et celle de ma femme Shirley. J'allais raconter des histoires vécues. Le pilote s'appelait « Le Mac qui se ferme à minuit ».
Le soir, je bascule sur quelque chose de complètement différent. Je veux faire un podcast narratif style Wondery — tu sais, cette boîte américaine qui produit Business Wars ou The Shrink Next Door. Format quinze minutes, voix de présentateur tendue, musique de film, bruitages immersifs. Sauf que je ne veux ni poser ma voix au micro, ni écrire seul.
L'idée : tester si je peux faire une vraie production de podcast pro en assumant complètement l'IA — voix synthétiques, scripts écrits par des sous-agents Claude, mixage automatisé. Pas en cachette. Pas en finissant à la main. Vraiment de bout en bout.
Tout ce qui suit est vrai. Les voix sont synthétiques (mention dans la mémoire du projet). Les scripts ont été écrits par des sous-agents Claude que j'ai briefés et validés. Le mixage tourne en Python. Ma valeur ajoutée a été : choisir les sujets, valider chaque étape à l'écoute, refuser ce qui ne sonnait pas bien, recadrer quand le résultat dérivait. Le ton de toute la chaîne, c'est moi qui l'ai donné.
Wondery, c'est avant tout des conflits humains derrière les grosses boîtes. Apple contre Microsoft. Netflix contre Blockbuster. Donc je cherche un conflit de la tech actuelle qui mérite un thriller. Trois candidats sortent :
Je décide de faire les trois. Une trilogie qui raconte la guerre IA dans l'ordre chronologique. Les trois épisodes se répondent — un personnage qui meurt à la fin de l'épisode un revient en gloire à l'épisode deux, et passe à la barre des témoins à l'épisode trois.
Avant qu'on parle de comment c'est fait, écoute le résultat. Chaque épisode dure environ quinze minutes. Les voix sont synthétiques mais elles ne sonnent pas robotiques — elles dramatisent, elles murmurent, elles s'interrompent.
Comment l'ami de Sam Altman a fondé son rival. La nuit de décembre 2020 où sept personnes ont quitté la boîte la plus excitante de la décennie. Aujourd'hui leur entreprise vaut trois cent quatre-vingts milliards.
Comment quatre personnes ont failli faire imploser la boîte la plus précieuse de la tech, en quatre jours. Vendredi 17 novembre 2023, Sam Altman est viré par son propre conseil. Mardi suivant, il revient en chef.
Deux pères qui se déchirent pour la garde de l'AGI. Elon Musk attaque Sam Altman en justice, réclame cent trente-quatre milliards de dollars, et la sélection du jury commence dans quatre jours réels au moment où je publie.
Commence par l'épisode deux. C'est le plus dialogué — un thriller en quatre jours, sept voix qui se répondent. C'est aussi celui où on entend le mieux ce que les voix synthétiques peuvent faire en mode dramatique.
Va sur la page podcast — tu y trouveras les trois épisodes avec un lecteur dédié, les covers, et de quoi t'abonner sur Spotify, Apple Podcasts ou via RSS. Cet article ici, c'est le making-of. La page podcast, c'est l'écoute pure.
Pour chaque épisode, j'ai répété la même chaîne. Je te montre les blocs principaux. Sous le capot, c'est plus complexe — mais l'idée tient en quatre temps.
Je lance trois ou quatre sous-agents Claude en parallèle sur le sujet. L'un va chercher l'histoire factuelle (citations sourcées, dates, scènes). Un autre regarde les techniques d'écriture Wondery. Un troisième audite ce qui marche en voix synthétique. Ils écrivent leurs résultats dans des fichiers, je consolide.
Je brief un sous-agent scénariste qui lit les résultats de recherche, suit une structure validée (cold open, trois actes, climax, outro), et écrit le script en respectant les contraintes des voix synthétiques (nombres en lettres, ponctuation pour piloter les pauses, indications de ton intégrées).
Un script Python parcourt le scénario, identifie qui parle, et appelle l'API ElevenLabs pour chaque réplique. Le narrateur est généré en mode classique. Les scènes de dialogue (procès, négociations) passent par un mode spécial où plusieurs voix partagent la même prise pour que l'enchaînement sonne naturel.
Un assembleur Python ajoute la musique en fond, les bruitages au bon moment, les silences dramatiques, et adoucit toutes les transitions. Le tout passe ensuite dans un masterisateur qui ajuste le volume aux normes de Spotify et Apple Podcasts. Sortie : un MP3 prêt à publier.
Pour l'épisode trois, j'ai ajouté une cinquième étape : un contrôle qualité par deux nouveaux sous-agents. L'un audite les bruitages et la musique. L'autre relit le script comme un auditeur novice et signale tout ce qui n'est pas clair. Ils m'ont sauvé d'un bug majeur — j'avais utilisé un personnage de l'épisode deux dans un rôle de journaliste anonyme à l'épisode trois, ce qui aurait perdu n'importe quel auditeur fidèle.
Avant de générer les quinze minutes complètes de l'épisode un, j'ai voulu valider la voix du narrateur. C'est le cœur d'un podcast — si la voix sonne mal, tout le reste est foutu. Je teste deux candidats trouvés dans la bibliothèque ElevenLabs : Theodore HQ et Paul K.
Theodore HQ est étiqueté « sereine et ancrée ». Sa fiche dit qu'elle est calibrée pour la méditation guidée. Sur le papier ça paraît chaud. En vrai, c'est exactement l'inverse de ce que je veux. Une voix méditation est entraînée à baisser ton rythme cardiaque. Wondery cherche à le monter. Je rejette Theodore.
Paul K est étiqueté « narrateur français profond ». Voix grave, chaude, taillée pour la narration documentaire. C'est exactement le profil que je cherche. Je décide de tester sur soixante-quinze secondes (le cold open de l'épisode), pour trente centimes de coût d'API.
Première remarque utile : le rythme intra-bloc est bon, c'est juste les transitions qui font sec. On rajoute sept dixièmes de seconde de silence entre chaque bloc dans le mixage. Test refait. « Et c'est parfait là. »
Cinq minutes de validation au lieu d'une regénération complète à dix dollars. C'est probablement la leçon la plus utile de tout le projet : tester un petit bout avant d'engager la machine.
Je lance la génération complète de l'épisode un. Tout passe. Je fais le mixage Python. J'écoute le résultat. Et là, quelque chose me chiffonne. La musique et les bruitages sont parfaits sur les quinze premières secondes. Après… plus rien. Que les voix.
Les voix étaient enregistrées en mono (un seul canal). La musique en stéréo (deux canaux). Quand l'assembleur les mixait, il alignait tout sur le plus petit dénominateur — le mono. La musique, qui vit dans les canaux gauche et droit, était écrasée dès qu'une voix dominait.
Six lignes de Python pour forcer tout en stéréo avant le mixage. Les voix sont upconvertées (le même son dans les deux canaux), la musique reste intacte, et tout se mixe proprement.
Je n'aurais jamais trouvé ce bug sans écouter. Le code passait. Aucune erreur. Tout était techniquement correct. Mais à l'oreille, c'était cassé. Cette anecdote a changé ma façon de travailler avec l'IA pour la suite : l'audit code seul ne remplace pas l'audit humain par les sens.
Le crossfade entre deux musiques utilisait les premières secondes des deux morceaux au lieu de la fin de l'ancien et le début du nouveau (effet « cut »). Le bed musical redémarrait au sample zéro à chaque voix (effet « stutter »). Un sous-agent a halluciné un identifiant de voix qui n'existait pas dans la bibliothèque. À chaque fois, l'écoute a tranché.
Chaque épisode m'a fait progresser sur un point. Voilà ce que j'ai ajouté à chaque fois.
Voix narrateur, trois personnages occasionnels, musique en fond, bruitages. La grille Wondery classique. Découverte des bugs invisibles, refonte du mixage, validation des règles techniques pour la suite.
Tu m'as demandé de mettre plus d'échanges entre les personnages. Bonne idée. L'épisode est passé de six répliques à trente. J'ai ajouté quatre nouveaux personnages (Ilya Sutskever, Helen Toner, Greg Brockman, Satya Nadella). C'est devenu un thriller à plusieurs camps.
C'est aussi à ce moment qu'un sous-agent m'a remonté un identifiant de voix qui n'existait pas — un personnage que j'ai dû remplacer en cinq minutes après une erreur 404. Leçon retenue : pour les épisodes suivants, valider tout identifiant en générant un test avant de me le remonter.
Trois nouveautés. Les scènes de dialogue passent en mode multi-voix (l'API « entend » les tours précédents et adapte la prosodie, les interruptions sont vraiment audibles). Les ambiances sonores deviennent multi-couches — le hall du tribunal, c'est trois sons mixés ensemble (réverbération marbre, murmures de presse, pas qui approchent). Et chaque personnage a sa signature sonore : Sam Altman annoncé par un cliquetis de glaçons, Sutskever par un grincement de chaise en cuir, l'avocat de Musk par le claquement de son classeur.
J'ai aussi mis en place un contrôle qualité automatisé : deux sous-agents auditent chaque épisode avant publication. L'un vérifie que les bruitages collent au scénario. L'autre relit comme un auditeur novice et m'alerte sur les passages flous. C'est exactement ce que font les éditeurs Wondery aux États-Unis. Sauf que c'est gratuit.
Coût total des trois épisodes, de la première recherche jusqu'au master final. Tout compris : génération voix, bruitages, musique, contrôle qualité. Aucun équipement ajouté. Mon laptop et une connexion internet.
Wondery aux États-Unis dépense plusieurs dizaines de milliers de dollars par épisode — équipe d'écriture, sound designer, comédiens, studio, droits musique. Je ne dis pas que mon résultat les égale. Je dis que pour le prix d'un sandwich, j'ai pu produire quelque chose qui s'écoute. C'est ça qui change.
De la première idée jusqu'au master du troisième épisode : vingt-quatre heures réelles, en parallèle d'une journée normale. La majorité du temps, je ne faisais rien — les sous-agents tournaient en tâche de fond. Mon vrai travail a été de valider à l'écoute, refuser les pistes faibles, et recadrer quand le rendu dérivait.
Si tu veux faire pareil — sur un podcast, mais aussi sur n'importe quel projet créatif où l'IA peut faire le gros du travail — voilà ce que je garderais.
Tester un petit bout vaut tout l'or du monde. Cinq minutes de validation sur soixante-quinze secondes m'ont évité une regénération complète à dix dollars. Toujours faire un mini-test avant d'engager la machine sur le gros morceau.
L'oreille humaine voit ce que le code ne voit pas. Le bug stéréo n'aurait jamais été détecté par un audit code. Sur un projet créatif, l'oreille (ou l'œil, le palais, selon le sujet) reste l'arbitre final.
Capitaliser ce qu'on apprend, c'est le multiplicateur. J'ai gardé en mémoire toutes les règles validées au premier épisode. Le deuxième et le troisième n'ont jamais redécouvert les mêmes bugs. Sans ça, j'aurais reperdu la moitié du temps à chaque fois.
Les sous-agents en parallèle changent la donne. Quatre recherches indépendantes en dix minutes au lieu de quarante en série. Le facteur quatre n'est pas du gadget — c'est ce qui permet de faire la trilogie en un jour au lieu d'une semaine.
Le contrôle qualité automatisé fait passer du bon au pro. Faire relire chaque épisode par deux sous-agents qui jouent les éditeurs critiques, c'est exactement ce que fait Wondery US. Sauf que là c'est gratuit. Ne pas s'en priver.
Faire confiance à l'humain sur les choix créatifs, le challenger sur les choix techniques mal informés. Quand j'ai voulu Theodore HQ, l'agent a vérifié, expliqué pourquoi c'était une mauvaise piste, j'ai changé d'avis. Quand j'ai voulu Paul K, validation directe. Pas de béni-oui-oui, pas de contradiction systématique.
Si tu veux faire ton propre podcast — ou n'importe quel projet créatif où l'IA peut prendre une grosse partie du travail — voilà ce que je te suggère pour démarrer simple :
Si tu veux les détails techniques (le code Python, les paramètres exacts, les prompts donnés aux sous-agents), inscris-toi à AI Playbook — je te raconterai dans une prochaine édition comment je raffine encore le système. Si tu veux juste écouter les épisodes proprement (lecteur dédié, abonnement RSS / Spotify / Apple Podcasts), la page podcast est faite pour ça. Et si tu veux m'envoyer ton avis sur les trois épisodes, je lis tout. C'est l'oreille humaine qui tranche.
Pour aller plus loin sur la guerre IA elle-même, je t'invite à lire à quoi ressemble le monde IA dans 5, 10, 20 ans — c'est ma lecture forward sur les acteurs cités dans la trilogie. Et si tu veux voir un autre making-of dans le même esprit (un outil de vente terrain construit en deux semaines avec Claude Code), c'est par ici.
Pour la trilogie pilote, le coût total a été de 33 dollars pour les trois épisodes : 8 $ pour l'ép 1, 10 $ pour l'ép 2, 15 $ pour l'ép 3. Tout compris : génération voix ElevenLabs, musique, bruitages, contrôle qualité auto. Aucun équipement ajouté. Pour un épisode unique de 15 minutes, compte 8 à 15 $ selon la complexité du dialogue.
Sur ElevenLabs, j'ai testé Theodore HQ (étiqueté sereine, calibré pour la méditation) et Paul K (narrateur français profond). Theodore est entraîné à baisser le rythme cardiaque — exactement l'inverse d'un thriller Wondery. Paul K, voix grave et chaude, taillée pour la narration documentaire, est validé. Règle d'or : tester 75 secondes pour 30 centimes avant de générer 15 minutes complètes à 10 $.
24 heures réelles entre la première idée et le master du troisième épisode, en parallèle d'une journée normale. La majorité du temps, je ne faisais rien — les sous-agents tournaient en tâche de fond. Mon vrai travail (peut-être 4 à 6 heures cumulées) a été de valider à l'écoute, refuser les pistes faibles, recadrer.
Les voix utilisées sont celles de la bibliothèque publique ElevenLabs (Paul K, etc.) — aucune voix clonée à partir de Sam Altman, Musk ou Sutskever. C'est une narration journalistique en voix off, pas une imitation. La transparence est assumée dès le hero du making-of. Cas Scarlett Johansson vs OpenAI Sky en mai 2024 : à éviter absolument toute voix qui ressemblerait à une personne réelle sans son accord.
Réel. Sur la trilogie, un sous-agent a halluciné un identifiant de voix qui n'existait pas (404 à la génération). À l'épisode 3, j'ai utilisé par erreur un personnage de l'épisode 2 dans un rôle de journaliste anonyme — bug majeur attrapé par un sous-agent contrôle qualité. Règle : faire relire chaque script par deux sous-agents critiques avant publication. Sur l'info sensible (date, citation, chiffre), vérifier toi-même contre une source primaire.
Le combo testé : Claude Code pour orchestrer les sous-agents, Anthropic Claude pour les scripts, ElevenLabs pour la voix (mode classique narration, mode multi-voix dialogues), Python pour le mixage et le mastering aux normes Spotify et Apple Podcasts, hébergement audio sur Cloudflare R2, distribution via flux RSS.
Les MP3 sont hébergés sur Cloudflare R2 (free tier 10 Go stockage et 0 egress) tant que le projet vit. Le RSS feed est soumis à Apple Podcasts et Spotify for Podcasters. Tant que la chaîne Jerwis Productions reste active, les épisodes restent diffusés. Pas de date d'expiration prévue.
Choix éditorial assumé. Le projet voulait tester si on peut produire un format Wondery-like en assumant complètement l'IA — voix synthétiques, scripts par sous-agents, mixage auto. Pas en cachette, pas en finissant à la main. Mettre ma voix aurait cassé la démonstration. J'ai un autre projet pilote (Le Mac qui se ferme à minuit) avec ma voix clonée et celle de ma femme, mais c'est un format intime de 3 minutes, pas un thriller business de 15 minutes.
Quatre phases plus une : recherche (3-4 sous-agents en parallèle qui collectent histoire, techniques d'écriture Wondery, audit voix), écriture (sous-agent scénariste qui suit cold open / 3 actes / climax / outro), génération voix (Python qui appelle ElevenLabs réplique par réplique), mixage (assembleur Python qui ajoute musique, bruitages, silences, transitions, puis masterisation Spotify-Apple). Phase 5 ajoutée à l'ép 3 : contrôle qualité par 2 sous-agents critiques (un sur les bruitages, un sur la clarté éditoriale).
Wondery US dépense des dizaines de milliers de dollars par épisode (équipe d'écriture, sound designer, comédiens, studio, droits musique). Un comédien français pour 15 minutes de narration tourne entre 300 et 800 € HT selon son tarif et la diffusion. Pour un pilote ou un side project, l'IA à 8-15 $ l'épisode est imbattable. Pour une série signature monétisée, le comédien reste pertinent — l'IA est en complément, pas en remplacement.
Une voix mal attribuée, un fait historique faux, un coût qui a changé ? Écris-moi à sagnier.jeremy@gmail.com · je corrige en 48h max et je note la date de MAJ en haut. Sur les sujets sensibles (citations historiques, attribution de propos), tes corrections valent de l'or.
J'ai déjà quelques pistes en tête : DeepSeek qui efface mille milliards de capitalisation en une journée (janvier 2025) · le départ de Ilya Sutskever de OpenAI (mai 2024) · Google qui rate son propre papier inventeur des modèles de langage · Scarlett Johansson contre OpenAI sur la voix Sky. Si un de ces sujets te tente — ou si tu en as un autre en tête — dis-le moi.
Ton vote me sert à choisir le prochain. Pas besoin de t'inscrire, pas d'email demandé. Juste ta voix.
Chaque fois que je termine un projet de ce type — podcast, agent IA, outil pro — je le partage dans ma newsletter. Pas de blabla. Le projet, ce qui a marché, ce qui a foiré, et ce que tu peux reprendre. Désinscription en un clic, je ne le prends pas mal.
Voir les newsletters →