Retour au site
Récit · Projet · Podcast IA

J'ai créé un
podcast avec une
voix IA en 24 heures.

Trois épisodes de podcast narratif, style « Guerres de Business ». Les voix sont synthétiques. Les scénarios ont été écrits par des sous-agents Claude. Le mixage est automatisé. Coût total : trente-trois dollars. Voici comment, étape par étape, sans rien te cacher.

10 min de lecture Niveau Tout public Outils Claude Code · ElevenLabs
Jérémy Sagnier Jérémy Sagnier · Je teste l’IA tous les jours · Je partage ce qui m’a servi Publié 23 avril 2026 · MAJ 24 avril 2026
En 30 secondes

Ce que tu vas découvrir

— Le déclic

Je voulais raconter une histoire. Pas la mienne.

Le 22 avril, j'avais commencé un projet de podcast personnel le matin. Format intime, trois minutes, ma propre voix clonée et celle de ma femme Shirley. J'allais raconter des histoires vécues. Le pilote s'appelait « Le Mac qui se ferme à minuit ».

Le soir, je bascule sur quelque chose de complètement différent. Je veux faire un podcast narratif style Wondery — tu sais, cette boîte américaine qui produit Business Wars ou The Shrink Next Door. Format quinze minutes, voix de présentateur tendue, musique de film, bruitages immersifs. Sauf que je ne veux ni poser ma voix au micro, ni écrire seul.

L'idée : tester si je peux faire une vraie production de podcast pro en assumant complètement l'IA — voix synthétiques, scripts écrits par des sous-agents Claude, mixage automatisé. Pas en cachette. Pas en finissant à la main. Vraiment de bout en bout.

Pourquoi je raconte ça honnêtement

Tout ce qui suit est vrai. Les voix sont synthétiques (mention dans la mémoire du projet). Les scripts ont été écrits par des sous-agents Claude que j'ai briefés et validés. Le mixage tourne en Python. Ma valeur ajoutée a été : choisir les sujets, valider chaque étape à l'écoute, refuser ce qui ne sonnait pas bien, recadrer quand le résultat dérivait. Le ton de toute la chaîne, c'est moi qui l'ai donné.

— Le sujet

Trois épisodes sur la guerre IA.

Wondery, c'est avant tout des conflits humains derrière les grosses boîtes. Apple contre Microsoft. Netflix contre Blockbuster. Donc je cherche un conflit de la tech actuelle qui mérite un thriller. Trois candidats sortent :

  1. Sam Altman contre Dario Amodei — la rupture fondatrice. Dario quitte OpenAI fin 2020 avec sept personnes, fonde Anthropic, et cinq ans plus tard fait la guerre commerciale à son ancien patron. Peu connu du grand public.
  2. Les quatre jours qui ont failli tuer OpenAI — le coup d'État de novembre 2023. Sam viré un vendredi, revient en triomphe le mardi. Drama pur.
  3. Elon Musk contre Sam Altman — le procès en cours. Musk a cofondé OpenAI, est parti furieux en 2018, attaque OpenAI en justice depuis 2024. Réclame cent trente-quatre milliards de dollars.

Je décide de faire les trois. Une trilogie qui raconte la guerre IA dans l'ordre chronologique. Les trois épisodes se répondent — un personnage qui meurt à la fin de l'épisode un revient en gloire à l'épisode deux, et passe à la barre des témoins à l'épisode trois.

— Les trois épisodes

Écoute-les tout de suite.

Avant qu'on parle de comment c'est fait, écoute le résultat. Chaque épisode dure environ quinze minutes. Les voix sont synthétiques mais elles ne sonnent pas robotiques — elles dramatisent, elles murmurent, elles s'interrompent.

Épisode 01 15 min · La rupture

La Fracture

Comment l'ami de Sam Altman a fondé son rival. La nuit de décembre 2020 où sept personnes ont quitté la boîte la plus excitante de la décennie. Aujourd'hui leur entreprise vaut trois cent quatre-vingts milliards.

Tu as aimé ? Un clic suffit. Merci · noté
Échec d'envoi · réessaye
Épisode 02 17 min · Le coup d'État

Les quatre jours

Comment quatre personnes ont failli faire imploser la boîte la plus précieuse de la tech, en quatre jours. Vendredi 17 novembre 2023, Sam Altman est viré par son propre conseil. Mardi suivant, il revient en chef.

Tu as aimé ? Un clic suffit. Merci · noté
Échec d'envoi · réessaye
Épisode 03 15 min · Le procès

Frères ennemis

Deux pères qui se déchirent pour la garde de l'AGI. Elon Musk attaque Sam Altman en justice, réclame cent trente-quatre milliards de dollars, et la sélection du jury commence dans quatre jours réels au moment où je publie.

Tu as aimé ? Un clic suffit. Merci · noté
Échec d'envoi · réessaye

Si tu n'écoutes qu'un seul

Commence par l'épisode deux. C'est le plus dialogué — un thriller en quatre jours, sept voix qui se répondent. C'est aussi celui où on entend le mieux ce que les voix synthétiques peuvent faire en mode dramatique.

Tu préfères écouter sans lire ?

Va sur la page podcast — tu y trouveras les trois épisodes avec un lecteur dédié, les covers, et de quoi t'abonner sur Spotify, Apple Podcasts ou via RSS. Cet article ici, c'est le making-of. La page podcast, c'est l'écoute pure.

— Comment c'est fait

Le système, en quatre étapes.

Pour chaque épisode, j'ai répété la même chaîne. Je te montre les blocs principaux. Sous le capot, c'est plus complexe — mais l'idée tient en quatre temps.

Phase 01

Recherche

Je lance trois ou quatre sous-agents Claude en parallèle sur le sujet. L'un va chercher l'histoire factuelle (citations sourcées, dates, scènes). Un autre regarde les techniques d'écriture Wondery. Un troisième audite ce qui marche en voix synthétique. Ils écrivent leurs résultats dans des fichiers, je consolide.

Phase 02

Écriture

Je brief un sous-agent scénariste qui lit les résultats de recherche, suit une structure validée (cold open, trois actes, climax, outro), et écrit le script en respectant les contraintes des voix synthétiques (nombres en lettres, ponctuation pour piloter les pauses, indications de ton intégrées).

Phase 03

Génération voix

Un script Python parcourt le scénario, identifie qui parle, et appelle l'API ElevenLabs pour chaque réplique. Le narrateur est généré en mode classique. Les scènes de dialogue (procès, négociations) passent par un mode spécial où plusieurs voix partagent la même prise pour que l'enchaînement sonne naturel.

Phase 04

Mixage

Un assembleur Python ajoute la musique en fond, les bruitages au bon moment, les silences dramatiques, et adoucit toutes les transitions. Le tout passe ensuite dans un masterisateur qui ajuste le volume aux normes de Spotify et Apple Podcasts. Sortie : un MP3 prêt à publier.

Pour l'épisode trois, j'ai ajouté une cinquième étape : un contrôle qualité par deux nouveaux sous-agents. L'un audite les bruitages et la musique. L'autre relit le script comme un auditeur novice et signale tout ce qui n'est pas clair. Ils m'ont sauvé d'un bug majeur — j'avais utilisé un personnage de l'épisode deux dans un rôle de journaliste anonyme à l'épisode trois, ce qui aurait perdu n'importe quel auditeur fidèle.

— Choisir une voix

Le test à cinq minutes.

Avant de générer les quinze minutes complètes de l'épisode un, j'ai voulu valider la voix du narrateur. C'est le cœur d'un podcast — si la voix sonne mal, tout le reste est foutu. Je teste deux candidats trouvés dans la bibliothèque ElevenLabs : Theodore HQ et Paul K.

Theodore HQ est étiqueté « sereine et ancrée ». Sa fiche dit qu'elle est calibrée pour la méditation guidée. Sur le papier ça paraît chaud. En vrai, c'est exactement l'inverse de ce que je veux. Une voix méditation est entraînée à baisser ton rythme cardiaque. Wondery cherche à le monter. Je rejette Theodore.

Paul K est étiqueté « narrateur français profond ». Voix grave, chaude, taillée pour la narration documentaire. C'est exactement le profil que je cherche. Je décide de tester sur soixante-quinze secondes (le cold open de l'épisode), pour trente centimes de coût d'API.

« C'est vraiment pas mal. J'aime bien la voix. C'est juste que des fois, quand il finit la phrase, ça reprend trop vite sur la deuxième phrase donc ça fait pas naturel. »

Première remarque utile : le rythme intra-bloc est bon, c'est juste les transitions qui font sec. On rajoute sept dixièmes de seconde de silence entre chaque bloc dans le mixage. Test refait. « Et c'est parfait là. »

Cinq minutes de validation au lieu d'une regénération complète à dix dollars. C'est probablement la leçon la plus utile de tout le projet : tester un petit bout avant d'engager la machine.

— Le moment où ça a failli capoter

Le bug invisible.

Je lance la génération complète de l'épisode un. Tout passe. Je fais le mixage Python. J'écoute le résultat. Et là, quelque chose me chiffonne. La musique et les bruitages sont parfaits sur les quinze premières secondes. Après… plus rien. Que les voix.

Le bug

La musique disparaissait au bout de 20 secondes

Avant le fix

Les voix étaient enregistrées en mono (un seul canal). La musique en stéréo (deux canaux). Quand l'assembleur les mixait, il alignait tout sur le plus petit dénominateur — le mono. La musique, qui vit dans les canaux gauche et droit, était écrasée dès qu'une voix dominait.

Après le fix

Six lignes de Python pour forcer tout en stéréo avant le mixage. Les voix sont upconvertées (le même son dans les deux canaux), la musique reste intacte, et tout se mixe proprement.

Je n'aurais jamais trouvé ce bug sans écouter. Le code passait. Aucune erreur. Tout était techniquement correct. Mais à l'oreille, c'était cassé. Cette anecdote a changé ma façon de travailler avec l'IA pour la suite : l'audit code seul ne remplace pas l'audit humain par les sens.

D'autres bugs, plus petits, dans la même journée

Le crossfade entre deux musiques utilisait les premières secondes des deux morceaux au lieu de la fin de l'ancien et le début du nouveau (effet « cut »). Le bed musical redémarrait au sample zéro à chaque voix (effet « stutter »). Un sous-agent a halluciné un identifiant de voix qui n'existait pas dans la bibliothèque. À chaque fois, l'écoute a tranché.

— Faire mieux à chaque épisode

Trois épisodes, trois bonds.

Chaque épisode m'a fait progresser sur un point. Voilà ce que j'ai ajouté à chaque fois.

Épisode 1 — Pipeline de base

Voix narrateur, trois personnages occasionnels, musique en fond, bruitages. La grille Wondery classique. Découverte des bugs invisibles, refonte du mixage, validation des règles techniques pour la suite.

Épisode 2 — Plus de dialogue

Tu m'as demandé de mettre plus d'échanges entre les personnages. Bonne idée. L'épisode est passé de six répliques à trente. J'ai ajouté quatre nouveaux personnages (Ilya Sutskever, Helen Toner, Greg Brockman, Satya Nadella). C'est devenu un thriller à plusieurs camps.

C'est aussi à ce moment qu'un sous-agent m'a remonté un identifiant de voix qui n'existait pas — un personnage que j'ai dû remplacer en cinq minutes après une erreur 404. Leçon retenue : pour les épisodes suivants, valider tout identifiant en générant un test avant de me le remonter.

Épisode 3 — Production studio

Trois nouveautés. Les scènes de dialogue passent en mode multi-voix (l'API « entend » les tours précédents et adapte la prosodie, les interruptions sont vraiment audibles). Les ambiances sonores deviennent multi-couches — le hall du tribunal, c'est trois sons mixés ensemble (réverbération marbre, murmures de presse, pas qui approchent). Et chaque personnage a sa signature sonore : Sam Altman annoncé par un cliquetis de glaçons, Sutskever par un grincement de chaise en cuir, l'avocat de Musk par le claquement de son classeur.

J'ai aussi mis en place un contrôle qualité automatisé : deux sous-agents auditent chaque épisode avant publication. L'un vérifie que les bruitages collent au scénario. L'autre relit comme un auditeur novice et m'alerte sur les passages flous. C'est exactement ce que font les éditeurs Wondery aux États-Unis. Sauf que c'est gratuit.

— Le coût

Combien ça coûte vraiment.

Trilogie pilote complète
33 dollars

Coût total des trois épisodes, de la première recherche jusqu'au master final. Tout compris : génération voix, bruitages, musique, contrôle qualité. Aucun équipement ajouté. Mon laptop et une connexion internet.

Épisode 01~ 8 dollars
Épisode 02~ 10 dollars
Épisode 03~ 15 dollars
Total~ 33 dollars

Wondery aux États-Unis dépense plusieurs dizaines de milliers de dollars par épisode — équipe d'écriture, sound designer, comédiens, studio, droits musique. Je ne dis pas que mon résultat les égale. Je dis que pour le prix d'un sandwich, j'ai pu produire quelque chose qui s'écoute. C'est ça qui change.

Et le temps ?

De la première idée jusqu'au master du troisième épisode : vingt-quatre heures réelles, en parallèle d'une journée normale. La majorité du temps, je ne faisais rien — les sous-agents tournaient en tâche de fond. Mon vrai travail a été de valider à l'écoute, refuser les pistes faibles, et recadrer quand le rendu dérivait.

— Ce que j'en retiens

Cinq leçons transposables.

Si tu veux faire pareil — sur un podcast, mais aussi sur n'importe quel projet créatif où l'IA peut faire le gros du travail — voilà ce que je garderais.

Leçon 01

Tester un petit bout vaut tout l'or du monde. Cinq minutes de validation sur soixante-quinze secondes m'ont évité une regénération complète à dix dollars. Toujours faire un mini-test avant d'engager la machine sur le gros morceau.

Leçon 02

L'oreille humaine voit ce que le code ne voit pas. Le bug stéréo n'aurait jamais été détecté par un audit code. Sur un projet créatif, l'oreille (ou l'œil, le palais, selon le sujet) reste l'arbitre final.

Leçon 03

Capitaliser ce qu'on apprend, c'est le multiplicateur. J'ai gardé en mémoire toutes les règles validées au premier épisode. Le deuxième et le troisième n'ont jamais redécouvert les mêmes bugs. Sans ça, j'aurais reperdu la moitié du temps à chaque fois.

Leçon 04

Les sous-agents en parallèle changent la donne. Quatre recherches indépendantes en dix minutes au lieu de quarante en série. Le facteur quatre n'est pas du gadget — c'est ce qui permet de faire la trilogie en un jour au lieu d'une semaine.

Leçon 05

Le contrôle qualité automatisé fait passer du bon au pro. Faire relire chaque épisode par deux sous-agents qui jouent les éditeurs critiques, c'est exactement ce que fait Wondery US. Sauf que là c'est gratuit. Ne pas s'en priver.

Leçon 06

Faire confiance à l'humain sur les choix créatifs, le challenger sur les choix techniques mal informés. Quand j'ai voulu Theodore HQ, l'agent a vérifié, expliqué pourquoi c'était une mauvaise piste, j'ai changé d'avis. Quand j'ai voulu Paul K, validation directe. Pas de béni-oui-oui, pas de contradiction systématique.

— Pour aller plus loin

Tu veux essayer ?

Si tu veux faire ton propre podcast — ou n'importe quel projet créatif où l'IA peut prendre une grosse partie du travail — voilà ce que je te suggère pour démarrer simple :

  1. Choisis un sujet que tu connais. La qualité du résultat dépend à quatre-vingts pour cent de la qualité de la matière donnée à l'IA. Si tu ne connais pas ton sujet, l'IA inventera.
  2. Commence par un mini-test. Un cold open de soixante-quinze secondes. Trente centimes. Si ça sonne mal, tu n'as rien perdu. Si ça sonne bien, tu sais que tu peux engager la machine.
  3. Capitalise ce qui marche. Une fois qu'un réglage est validé à l'écoute, écris-le quelque part. Les épisodes suivants iront cinq fois plus vite.
  4. Demande un contrôle qualité avant de publier. Un sous-agent qui relit comme un novice, c'est gratuit, c'est rapide, et ça t'évite de publier quelque chose d'incompréhensible.

Si tu veux les détails techniques (le code Python, les paramètres exacts, les prompts donnés aux sous-agents), inscris-toi à AI Playbook — je te raconterai dans une prochaine édition comment je raffine encore le système. Si tu veux juste écouter les épisodes proprement (lecteur dédié, abonnement RSS / Spotify / Apple Podcasts), la page podcast est faite pour ça. Et si tu veux m'envoyer ton avis sur les trois épisodes, je lis tout. C'est l'oreille humaine qui tranche.

Pour aller plus loin sur la guerre IA elle-même, je t'invite à lire à quoi ressemble le monde IA dans 5, 10, 20 ans — c'est ma lecture forward sur les acteurs cités dans la trilogie. Et si tu veux voir un autre making-of dans le même esprit (un outil de vente terrain construit en deux semaines avec Claude Code), c'est par ici.

— Questions fréquentes

FAQ podcast IA.

Combien ça coûte vraiment de produire un épisode podcast IA ?

Pour la trilogie pilote, le coût total a été de 33 dollars pour les trois épisodes : 8 $ pour l'ép 1, 10 $ pour l'ép 2, 15 $ pour l'ép 3. Tout compris : génération voix ElevenLabs, musique, bruitages, contrôle qualité auto. Aucun équipement ajouté. Pour un épisode unique de 15 minutes, compte 8 à 15 $ selon la complexité du dialogue.

Quelle voix synthétique choisir pour de la narration dramatique ?

Sur ElevenLabs, j'ai testé Theodore HQ (étiqueté sereine, calibré pour la méditation) et Paul K (narrateur français profond). Theodore est entraîné à baisser le rythme cardiaque — exactement l'inverse d'un thriller Wondery. Paul K, voix grave et chaude, taillée pour la narration documentaire, est validé. Règle d'or : tester 75 secondes pour 30 centimes avant de générer 15 minutes complètes à 10 $.

Quel temps réel humain ça prend (vs temps machine) ?

24 heures réelles entre la première idée et le master du troisième épisode, en parallèle d'une journée normale. La majorité du temps, je ne faisais rien — les sous-agents tournaient en tâche de fond. Mon vrai travail (peut-être 4 à 6 heures cumulées) a été de valider à l'écoute, refuser les pistes faibles, recadrer.

Est-ce légal d'utiliser des voix synthétiques pour citer Sam Altman, Musk, etc. ?

Les voix utilisées sont celles de la bibliothèque publique ElevenLabs (Paul K, etc.) — aucune voix clonée à partir de Sam Altman, Musk ou Sutskever. C'est une narration journalistique en voix off, pas une imitation. La transparence est assumée dès le hero du making-of. Cas Scarlett Johansson vs OpenAI Sky en mai 2024 : à éviter absolument toute voix qui ressemblerait à une personne réelle sans son accord.

Quel est le risque d'hallucination IA dans un script narratif ?

Réel. Sur la trilogie, un sous-agent a halluciné un identifiant de voix qui n'existait pas (404 à la génération). À l'épisode 3, j'ai utilisé par erreur un personnage de l'épisode 2 dans un rôle de journaliste anonyme — bug majeur attrapé par un sous-agent contrôle qualité. Règle : faire relire chaque script par deux sous-agents critiques avant publication. Sur l'info sensible (date, citation, chiffre), vérifier toi-même contre une source primaire.

Quels outils utiliser pour produire un podcast IA en 2026 ?

Le combo testé : Claude Code pour orchestrer les sous-agents, Anthropic Claude pour les scripts, ElevenLabs pour la voix (mode classique narration, mode multi-voix dialogues), Python pour le mixage et le mastering aux normes Spotify et Apple Podcasts, hébergement audio sur Cloudflare R2, distribution via flux RSS.

Combien de temps les fichiers MP3 vont rester en ligne ?

Les MP3 sont hébergés sur Cloudflare R2 (free tier 10 Go stockage et 0 egress) tant que le projet vit. Le RSS feed est soumis à Apple Podcasts et Spotify for Podcasters. Tant que la chaîne Jerwis Productions reste active, les épisodes restent diffusés. Pas de date d'expiration prévue.

Pourquoi ne pas mettre ta vraie voix au micro ?

Choix éditorial assumé. Le projet voulait tester si on peut produire un format Wondery-like en assumant complètement l'IA — voix synthétiques, scripts par sous-agents, mixage auto. Pas en cachette, pas en finissant à la main. Mettre ma voix aurait cassé la démonstration. J'ai un autre projet pilote (Le Mac qui se ferme à minuit) avec ma voix clonée et celle de ma femme, mais c'est un format intime de 3 minutes, pas un thriller business de 15 minutes.

C'est quoi le workflow Claude Code exact ?

Quatre phases plus une : recherche (3-4 sous-agents en parallèle qui collectent histoire, techniques d'écriture Wondery, audit voix), écriture (sous-agent scénariste qui suit cold open / 3 actes / climax / outro), génération voix (Python qui appelle ElevenLabs réplique par réplique), mixage (assembleur Python qui ajoute musique, bruitages, silences, transitions, puis masterisation Spotify-Apple). Phase 5 ajoutée à l'ép 3 : contrôle qualité par 2 sous-agents critiques (un sur les bruitages, un sur la clarté éditoriale).

À partir de quel volume ça vaut le coup vs un comédien ?

Wondery US dépense des dizaines de milliers de dollars par épisode (équipe d'écriture, sound designer, comédiens, studio, droits musique). Un comédien français pour 15 minutes de narration tourne entre 300 et 800 € HT selon son tarif et la diffusion. Pour un pilote ou un side project, l'IA à 8-15 $ l'épisode est imbattable. Pour une série signature monétisée, le comédien reste pertinent — l'IA est en complément, pas en remplacement.

Tu repères une erreur ?

Une voix mal attribuée, un fait historique faux, un coût qui a changé ? Écris-moi à sagnier.jeremy@gmail.com · je corrige en 48h max et je note la date de MAJ en haut. Sur les sujets sensibles (citations historiques, attribution de propos), tes corrections valent de l'or.

— Ton vote compte

Tu veux un épisode 4 ?

J'ai déjà quelques pistes en tête : DeepSeek qui efface mille milliards de capitalisation en une journée (janvier 2025) · le départ de Ilya Sutskever de OpenAI (mai 2024) · Google qui rate son propre papier inventeur des modèles de langage · Scarlett Johansson contre OpenAI sur la voix Sky. Si un de ces sujets te tente — ou si tu en as un autre en tête — dis-le moi.

Quel sujet tu veux entendre ?

Ton vote me sert à choisir le prochain. Pas besoin de t'inscrire, pas d'email demandé. Juste ta voix.

Merci · ton vote est arrivé Échec · réessaye
— Et maintenant ?

Tu reçois mes prochains projets.

Chaque fois que je termine un projet de ce type — podcast, agent IA, outil pro — je le partage dans ma newsletter. Pas de blabla. Le projet, ce qui a marché, ce qui a foiré, et ce que tu peux reprendre. Désinscription en un clic, je ne le prends pas mal.

Voir les newsletters →