Récit · Agents auto-améliorants · Niveau découverte

J'ai laissé une IA
s'améliorer toute seule
pendant la nuit.

Q: C'est quoi l'auto-recherche selon Karpathy ?

L'idée centrale du projet autoresearch d'Andrej Karpathy : tu fais bosser une IA sur un problème, tu lui demandes de modifier son propre travail, elle teste si la nouvelle version est meilleure, garde si oui, jette si non, et recommence en boucle. C'est l'idée la plus simple du monde habillée d'un nom savant.

Q: Combien ça coûte de tester 14 versions d'un agent pendant une nuit ?

Mon expérience nocturne sur le tri d'emails m'a coûté 8,40 € en jetons IA pour 9 heures de travail et 14 versions testées, sur un plafond fixé à 15 €. Compte 10 à 15 € pour un premier essai, c'est largement suffisant pour comprendre si ça marche.

Q: Quels outils permettent de faire de l'auto-recherche concrètement ?

Claude Code (l'application qui permet de discuter avec Claude dans un terminal et de lui faire modifier des fichiers) ou Codex CLI d'OpenAI sont les deux outils principaux aujourd'hui. Compte 30 minutes d'installation la première fois. D'ici 18 mois, ce sera probablement un bouton intégré dans Notion, Zapier ou Make.

Q: C'est quoi la différence entre l'auto-recherche et un fine-tuning classique ?

Un fine-tuning modifie les poids du modèle IA lui-même avec un dataset, ça demande de l'infrastructure et de la donnée. L'auto-recherche modifie le code, le prompt ou la configuration autour du modèle, sans toucher au modèle. C'est plus accessible, moins cher, et applicable à n'importe quoi qui se mesure.

Une idée sortie d'un projet d'Andrej Karpathy (un ancien d'OpenAI et de Tesla, l'un des chercheurs les plus respectés du domaine) : on peut demander à une IA de modifier son propre travail, de tester si c'est mieux, de garder ce qui marche, de jeter ce qui rate. Et de recommencer. Toute la nuit. J'ai essayé chez moi sur un script pénible à régler. Voilà ce qui s'est passé.

14 min de lecture Niveau Tout public Date Avril 2026

En 30 secondes

Ce que tu vas comprendre

L'idée folle de Karpathy : laisser un agent IA modifier son propre travail, le tester, garder ce qui marche, jeter le reste. En boucle, sans toi, pendant des heures.
Mon expérience vécue : j'ai laissé Claude bosser sur mon script de tri d'emails de 22h à 7h du matin. Au réveil, il avait essayé 14 versions et trouvé une recette qui me ratait moins de mails importants.
Le résultat chiffré : 23 % d'emails importants en moins ratés, 8 € de coût en jetons IA, zéro intervention de ma part la nuit.
Pourquoi c'est valable même si tu n'es pas dev : ça marche aussi sur des objets de newsletter, des fiches produit, des prompts, n'importe quoi qu'on peut tester et noter.
Mon conseil tranché : commence par un cas qui n'est pas critique, qui se mesure facilement, et fixe-toi un budget en euros avant de lancer. Pas de magie, juste de la patience automatisée.
Transparence : article écrit avec Claude (Anthropic), relu et validé par moi. L'expérience nocturne elle-même tournait avec Claude. Si tu repères une erreur, écris-moi, je corrige.

— Le déclencheur

L'idée qui m'a empêché de dormir.

C'était un dimanche soir de mars 2026. Je traînais sur GitHub (la plateforme où les développeurs partagent leur code, un peu le YouTube du logiciel) et je tombe sur un projet d'Andrej Karpathy appelé autoresearch. Je ne te cache pas que la moitié du projet est incompréhensible pour moi — il y a des graphiques, des termes de chercheur, des mesures qui ne me parlent pas du tout. Mais l'idée centrale, elle, m'a frappé entre les deux yeux.

L'idée tient en une phrase : tu fais bosser une IA sur un problème, tu lui demandes de modifier son propre travail, tu la laisses tester si la nouvelle version est meilleure, et si oui, elle continue à partir de là — sinon elle revient en arrière et essaie autre chose. Et tu recommences. Toute la nuit. Sans toi.

Ce qui m'a fait tilter, c'est que j'avais justement un point qui me pourrissait la vie depuis trois mois : mon script de tri d'emails. Pas un programme sophistiqué, juste un petit script que m'avait écrit Claude (l'IA d'Anthropic, un des grands modèles de conversation comme ChatGPT) pour qu'il regarde ma boîte mail le matin et me sorte les 10 emails les plus importants à traiter en priorité. Le souci : il en ratait régulièrement. Une demande de devis perdue dans les newsletters, un email de mon comptable noyé dans les pubs LinkedIn. Pas catastrophique, mais énervant.

Et là, je me dis : « Et si je laissais l'IA améliorer son propre script ? Toute seule, pendant que je dors ? » Je ferme l'ordi. Je dors mal. Le lendemain matin, je me lève, je prépare le café, et je décide de tenter le coup le soir même.

Petit point honnêteté

Je ne suis pas dev. Je n'ai jamais étudié l'informatique. Tout ce que j'ai fait dans cet article, je l'ai fait en demandant à Claude de m'expliquer chaque étape comme à un débutant, et en lui faisant écrire le code à ma place. Si moi je peux le faire, toi aussi tu peux le faire.

— L'histoire

Ma nuit avec Claude au volant.

Lundi soir. 21h45. Mon fils dort. Ma femme regarde une série. Je m'installe à mon bureau. J'ouvre Claude Code (un outil qui permet de discuter avec Claude directement dans ton terminal — j'ai un tuto dédié dessus). Je lui explique en français, sans jargon, ce que je veux faire :

Mon brief écrit en français normal

« J'ai un petit programme qui regarde mes emails du matin et me sort les 10 plus importants. Il en rate trop. J'ai préparé une liste de 200 emails de la semaine dernière où j'ai noté à la main lesquels étaient vraiment importants. Je veux que tu modifies le programme, que tu le testes sur ma liste, que tu mesures combien d'emails importants il a oubliés, et que tu recommences en essayant d'autres approches. Tu as toute la nuit. Garde la version qui rate le moins d'emails. Au matin, montre-moi le top 3 des versions et explique-moi ce que tu as changé. »

J'ai préparé ma liste de 200 emails dans un simple tableur, avec une colonne « important : oui/non ». Trois heures de boulot le dimanche matin pour la constituer — la partie la moins fun de toute l'opération, mais c'est là que se joue tout le reste. Sans cette liste de référence, l'IA ne peut rien mesurer.

22h12. Je lance Claude. Je lui dis « vas-y ». Il me répond qu'il commence par lire le programme actuel, qu'il va proposer une première modification, puis qu'il me ping si quelque chose lui pose problème. Je règle une limite de coût à 15 € dans les paramètres (j'y reviens plus loin) et je vais me coucher.

6h47 le lendemain. Mon réveil sonne. Je file dans le bureau avant même le café. L'écran m'attend. Voilà ce que je trouve.

Versions testées

Sur les 14 modifications essayées, 5 étaient meilleures que la version d'origine, 9 étaient pires (et automatiquement jetées).

Emails ratés en moins

23 %

La meilleure version oublie 23 % d'emails importants en moins que mon programme d'origine. Mesuré sur ma liste de 200 emails.

Coût total

8,40 €

9 heures de travail nocturne facturées en jetons IA (l'équivalent du carburant d'une IA). Bien en-dessous de mon plafond de 15 €.

Ce que l'IA a changé (et que je n'aurais pas trouvé)

Voilà ce qui m'a vraiment surpris. Les modifications que Claude a gardées étaient trois choses auxquelles je n'avais jamais pensé :

Il a regardé l'historique des conversations. Si quelqu'un m'avait déjà répondu trois fois dans la semaine, il considérait qu'un nouveau mail de cette personne était plus probablement important. Évident une fois dit. Pas évident à coder soi-même.
Il a appris à reconnaître les pièces jointes pro. Un PDF de 2 Mo dans un email court, c'est souvent un devis ou un contrat — donc important. Une image de mème dans un long email, c'est rarement urgent.
Il a appris à se méfier des emails « urgent » en objet. Statistiquement dans ma liste, les emails qui crient « URGENT !!! » dans l'objet étaient en réalité 4 fois moins importants que les emails qui annonçaient calmement un sujet en deux mots. Le marketing m'a appris à me méfier des cris.

Honnêtement ? J'aurais mis trois mois à trouver ces trois ajustements tout seul, en réglant mon programme petit à petit, à chaque fois qu'un email passait à travers. Claude a fait ça en 9 heures pendant que je dormais.

Le plus drôle de l'histoire : la version finale est plus simple que celle d'origine. Pas plus longue, pas plus compliquée — plus intelligente. C'est exactement ce que disait Karpathy dans son projet : les bonnes améliorations enlèvent souvent du code, elles n'en ajoutent pas.

— Le concept Karpathy, expliqué simplement

Une IA qui cuisine, goûte, recommence.

Maintenant qu'on a vu mon cas concret, prenons deux minutes pour comprendre l'idée derrière. C'est l'idée la plus simple du monde habillée d'un nom savant (« autoresearch », recherche automatique). Voilà l'analogie qui m'a fait tilter.

Imagine un cuisinier qui veut perfectionner sa recette de pizza. Il a une recette de base. Il essaie une variante : un peu plus de sel. Il fait goûter à 10 personnes. Si plus de gens préfèrent, il garde. Sinon, il revient à la recette d'avant. Puis il essaie autre chose : moins de fromage. Il refait goûter. Il garde ou il jette. Et ainsi de suite, 50 fois, 100 fois.

L'IA fait exactement la même chose, sauf qu'elle ne cuisine pas des pizzas — elle cuisine du code, des prompts, des objets de mail, des fiches produit. Et elle ne fait pas goûter à 10 personnes — elle teste sur une liste de référence que tu as préparée à l'avance (mes 200 emails notés à la main, par exemple).

Le schéma de la boucle : génère, teste, garde, relance — pendant 6 heures sans intervention humaine.

La boucle, en quatre temps

L'IA propose une modification

Elle regarde la version actuelle de ce sur quoi elle bosse (ton script, ton prompt, ton objet de mail) et elle propose un changement précis. Genre : « Et si on ajoutait une règle qui dit que les pièces jointes PDF lourdes sont un indice d'importance ? »

Elle teste la nouvelle version sur ta référence

Elle prend ta liste de référence (les 200 emails notés, ou les 50 objets de newsletter avec leurs taux d'ouverture, peu importe) et elle fait tourner la nouvelle version dessus. Elle compte combien de fois ça marche.

Elle compare avec la meilleure version connue

Si la nouvelle version fait mieux (ou aussi bien) que la précédente meilleure, elle la garde et c'est le nouveau point de départ. Si elle fait pire, elle revient à la précédente meilleure et essaie autre chose. C'est tout. Pas de magie.

Elle recommence — autant de fois que tu lui dis

La boucle tourne tant que tu n'as pas dit stop, ou tant que ton budget en jetons IA n'est pas atteint. Au matin, elle te montre la meilleure version trouvée et la liste de tout ce qu'elle a essayé.

C'est tout. Sérieusement, c'est tout. Et c'est ce qui rend l'idée si puissante : tu peux l'appliquer à n'importe quoi qui se mesure. Du moment que tu peux dire « cette version est meilleure que celle-là parce que... », l'IA peut tester en boucle pour toi.

Le piège dont Karpathy lui-même prévient

L'IA va parfois te trouver des « améliorations » qui marchent uniquement sur ta liste de référence et pas dans la vraie vie. C'est un piège classique. Pour l'éviter, garde toujours une deuxième liste de contrôle que l'IA n'a jamais vue — comme un examen surprise. Si la version finale marche aussi bien sur ta liste secrète, c'est bon. Sinon, c'est qu'elle a juste appris à passer le test.

— Comment toi tu peux essayer

Cinq étapes pour monter ton premier essai.

Si tu veux tenter le coup ce week-end, voilà la marche à suivre. Je décris ce que j'ai fait, sans présupposer que tu as déjà installé quoi que ce soit. Compte deux à trois heures la première fois, principalement pour préparer la liste de référence.

Choisis un élément à améliorer qui n'est PAS critique

Pour ton premier essai, surtout pas un système qui envoie tes factures ou qui touche à de l'argent. Choisis quelque chose où une erreur n'a aucune conséquence : un prompt que tu utilises souvent, l'objet de tes emails de prospection, un petit script perso. Mon conseil : commence par un projet qui te sert à toi seul, pas à un client.

Prépare une liste de référence à la main

C'est l'étape la plus longue mais c'est la plus importante. Il te faut entre 50 et 200 exemples avec, pour chacun, ce que serait la « bonne » réponse. Mes 200 emails notés « important / pas important », par exemple. Sans cette liste, l'IA n'a aucun moyen de mesurer si elle s'améliore ou pas. Tu peux préparer ça dans un simple tableur Google Sheets ou Excel.

Installe Claude Code (ou Codex CLI)

Claude Code est l'outil que j'ai utilisé. C'est une application qui te permet de discuter avec Claude directement dans une fenêtre où tu peux lui demander de modifier des fichiers et de tester des choses. Codex CLI (le concurrent d'OpenAI) fait pareil. J'ai un tuto dédié pour Claude Code si tu pars de zéro. 30 minutes d'installation la première fois, ensuite tu n'y touches plus.

Donne le brief en français, fixe un budget

Tu écris en clair ce que tu veux : voilà mon programme actuel, voilà ma liste de référence, voilà la mesure (« compte combien d'emails importants tu rates »), voilà combien je suis prêt à dépenser. Le budget en jetons IA est crucial : sans plafond, l'IA peut tourner des jours et te coûter cher. Mets 10-15 € pour ton premier essai, c'est largement suffisant pour comprendre si ça marche.

Lance, va dormir, vérifie au matin

Démarre le soir, laisse tourner. Le matin, regarde ce que l'IA te propose. Important : ne mets jamais en production directement. Lis ce que l'IA a changé, comprends pourquoi, teste toi-même sur 5 ou 10 nouveaux exemples que l'IA n'a jamais vus. Si ça tient la route, tu peux remplacer ton programme. Sinon, tu rerouvres une boucle.

L'astuce qui change tout pour les non-devs

Ne te bats pas avec le code. Demande à Claude de t'expliquer en français ce qu'il a changé, et pourquoi. Si tu ne comprends pas une explication, demande-lui de la simplifier encore. Si moi j'arrive à suivre, n'importe qui y arrive. La règle d'or : tant que tu n'as pas compris ce que l'IA a changé, ne mets pas en production.

— Là où ça brille pour les non-devs

Quatre cas concrets qui ne demandent pas d'être codeur.

Le tri d'emails, c'est mon cas. Mais l'idée se transpose partout où tu peux mesurer si une version est meilleure qu'une autre. Voilà quatre exemples que j'ai testés ou que des entrepreneurs autour de moi ont testés depuis.

CAS 01 · Newsletter

Trouver les meilleurs objets de mail

Tu as 50 newsletters envoyées dans le passé avec leurs taux d'ouverture. Tu demandes à l'IA de proposer 30 nouveaux objets pour ton prochain mail, de les noter sur la base des règles qu'elle déduit de tes meilleures performances passées, et de garder le top 3. Coût typique : 3 à 5 €. Gain typique observé chez deux contacts : entre 8 et 18 % d'ouvertures en plus sur les semaines suivantes.

Pour : tous les créateurs de newsletter

CAS 02 · Cold email

Tester 50 variantes de premier message

Tu as une liste de 100 prospects. Tu prépares 50 variantes de ton premier message. Tu en envoies 2 à chaque prospect (en alternant). L'IA mesure les taux de réponse, identifie ce qui marche le mieux (longueur, ton, accroche), te propose 10 nouvelles variantes inspirées des gagnantes, et tu recommences. Très puissant, mais respecte les règles anti-spam — n'envoie pas n'importe quoi à n'importe qui.

Pour : commerciaux, freelances, fondateurs

CAS 03 · Article de blog

Améliorer la clarté de tes textes

Tu donnes à l'IA tes 20 meilleurs articles passés (ceux qui ont été le plus partagés ou commentés). Tu lui dis : « Réécris mon nouveau brouillon dans le style de ces 20-là. Mesure la lisibilité, la longueur des phrases, l'accroche. Garde la version la plus claire ». Ce n'est pas exactement le même schéma que Karpathy mais l'idée est la même : test, mesure, garde, recommence.

Pour : rédacteurs, freelances, créateurs de contenu

CAS 04 · Fiche produit

Optimiser tes pages de vente

Tu as 30 fiches produits sur ta boutique en ligne avec leurs taux de conversion. L'IA déduit les règles qui distinguent les meilleures (longueur, photos, structure du texte, position du prix) et te propose des réécritures. Tu valides, tu mets en ligne, tu mesures. C'est de l'A/B test (la pratique de comparer deux versions d'une page pour voir laquelle marche le mieux), mais pilotée par l'IA au lieu de toi.

Pour : e-commerçants, SaaS, sites de services

Le point commun de ces quatre cas : tu peux mesurer le résultat. Sans mesure objective, l'idée Karpathy ne marche pas. C'est l'unique limite, mais c'est une vraie limite. Si tu ne peux pas dire « cette version est mesurablement meilleure que celle-là », change de méthode.

— Les pièges

Quatre trous dans la raquette à connaître.

Je préfère te le dire maintenant plutôt que tu les découvres en perdant 50 €. Les voilà, les quatre choses qui peuvent te frustrer si tu ne les sais pas dès le départ.

💸

Piège 1 — Lancer sans plafond de coût

Une IA qui tourne en boucle peut consommer beaucoup de jetons. Sans limite, ton 5 € prévu peut devenir 80 € en une nuit (ça m'est arrivé une fois sur un autre essai). Toujours fixer un plafond avant de lancer. Pour Claude Code, ça se règle dans les paramètres en deux clics. Pour les autres outils, demande à l'IA elle-même comment faire — elle te guidera.

🎯

Piège 2 — Ne pas garder de liste secrète

L'IA peut « apprendre par cœur » ta liste de référence et te sortir une version qui marche très bien dessus mais ratée dans la vraie vie. Pour l'éviter : prépare une deuxième liste de 30-50 exemples que tu ne donnes pas à l'IA. Au matin, teste la version finale dessus. Si elle marche aussi bien, c'est bon. Si elle s'effondre, l'IA a triché — recommence avec un brief plus serré.

🚨

Piège 3 — Laisser ça tourner sur du critique

Jamais sur ton CRM client. Jamais sur ta facturation. Jamais sur ton site en production. Toujours sur une copie. L'IA peut très bien casser des choses en essayant de les améliorer. Pour ton premier essai, choisis un cas où la pire chose qui peut arriver, c'est que tu rigoles. Pas que tu perdes un client.

🛑

Piège 4 — Croire que plus = mieux

Plus de versions testées ne donne pas forcément un meilleur résultat. Au-delà de 20-30 modifications, le gain marginal devient minuscule, mais le coût continue de grimper. Mon expérience après quelques essais : arrête à la première version qui te satisfait. Tu pourras toujours relancer une boucle plus tard si besoin. Le mieux est l'ennemi du bien, l'IA y compris.

Et un cinquième, plus sournois : ne pas comprendre ce que l'IA a changé. Si tu mets en production une version que tu n'as pas relue, tu vas avoir des surprises. Toujours demander à Claude de te résumer ses modifications en français normal, et toujours lire ce résumé avant d'adopter la nouvelle version.

— Ce qu'il ne faut pas attendre

Les promesses à débrancher tout de suite.

Je vois passer beaucoup de hype sur les agents auto-améliorants en ce moment. « L'IA va se développer toute seule, on n'aura plus besoin de devs ». Calme. Voilà les vrais ordres de grandeur, après deux mois de tests chez moi.

La promesse marketing	La réalité de mon banc d'essai
« L'IA s'améliore toute seule sans toi »	L'IA améliore une chose précise que toi tu as définie, sur des exemples que toi tu as préparés. Sans cette préparation humaine, elle ne sait rien améliorer.
« Gains de 200, 300 % »	10 à 30 % d'amélioration par boucle, dans mes essais. Parfois plus, jamais 300 %. Et ça plafonne vite : la deuxième boucle gagne moins que la première.
« Ça remplace les devs »	Ça aide les devs à itérer plus vite et permet aux non-devs comme moi d'améliorer des petits bouts de logiciel. Personne ne se fait remplacer, certains se font augmenter.
« Bientôt l'IA construira ses successeurs »	Karpathy lui-même calme le jeu : on est sur des micro-améliorations sur des sujets précis. Pas sur une IA qui se redessine elle-même de A à Z. Ça viendra peut-être, mais on n'y est pas.

Mon avis honnête : c'est puissant, c'est vrai, c'est utilisable dès aujourd'hui pour des cas précis. Mais ce n'est pas la révolution qu'on te vend sur LinkedIn. C'est un nouveau levier de productivité, comme l'a été l'apparition d'Excel pour les comptables ou des moteurs de recherche pour les journalistes. Important. Pas magique.

Mon vrai conseil après deux mois d'essais

N'investis pas trois weekends à monter ton premier banc d'essai en pensant que tu vas découvrir le secret du business. Investis trois heures, fais un essai sur un cas anodin (un objet de newsletter, par exemple), regarde si ça te plaît, et si oui, applique-le à un cas plus utile la semaine suivante. L'apprentissage progressif bat l'enthousiasme initial à tous les coups.

— Le verdict

Pour qui c'est utile, pour qui ça ne l'est pas.

Après ces deux mois et une bonne dizaine d'essais (réussis et ratés), voilà mon tri.

Ça va te servir si tu es...

Entrepreneur ou freelance qui a déjà des routines automatisées (envoi de mails, tri de leads, génération de devis) et qui aimerait les rendre 20-30 % plus précises sans embaucher quelqu'un.
Créateur de contenu avec assez d'historique mesurable (ouvertures, clics, conversions) pour que l'IA ait de la matière à analyser.
Curieux de l'IA qui a déjà touché à Claude Code ou à un outil similaire et qui veut passer au cran d'après. Si c'est toi, c'est l'étape logique après mon tuto sur les loops et mon tuto sur les agents.

Ça ne va PAS te servir si tu es...

Débutant complet en IA qui n'a pas encore installé Claude Code ou équivalent. Commence par mon guide débutant avant. Sans bases, ce sera de la frustration pure.
Quelqu'un qui n'a rien à mesurer. Si tu ne sais pas dire objectivement « cette version est meilleure », ça ne marchera pas. Pas grave, plein d'autres usages de l'IA fonctionnent sans mesure.
Pressé de voir un retour sur investissement. Compte deux à cinq essais avant de gagner vraiment du temps. Le premier est toujours pour apprendre.

Ce qui va arriver en 2026-2028

Trois choses, très probables, qui vont changer le paysage :

Les outils vont devenir plus simples. Aujourd'hui il faut Claude Code et un peu de patience pour configurer une boucle. D'ici 18 mois, ce sera un bouton « optimise ce script pendant la nuit » dans des outils comme Notion, Zapier ou Make. Pas besoin de comprendre le terminal.
Le coût va chuter de 80 %. Les jetons IA sont divisés par deux à peu près tous les ans. Mes essais qui coûtent 8 € aujourd'hui en coûteront 1 ou 2 dans deux ans.
De nouveaux usages vont apparaître. Notamment dans la maintenance des sites web, l'optimisation de tunnels de vente, l'amélioration de support client. Les boîtes qui s'y prennent maintenant prendront de l'avance.

Ce qui ne va pas arriver, à mon sens : une IA totalement autonome qui se remodèle elle-même de zéro, sans humain dans la boucle. On en est très loin, et probablement pour de bonnes raisons que les chercheurs eux-mêmes nous expliquent.

— Pour aller plus loin

Trois pistes pour creuser ce week-end.

Si tu veux tester maintenant

Choisis le sujet le moins risqué possible. Pas ton CRM. Pas ta facturation. Plutôt un objet de newsletter, un prompt qui te sert souvent, ou un petit script jamais critique.
Prépare une liste de référence de 50 exemples minimum. Sans elle, l'IA n'a rien à mesurer. C'est la partie la plus chiante, c'est celle qui fait toute la différence.
Fixe un plafond à 10 €. C'est assez pour comprendre si ça marche, c'est pas assez pour te ruiner si ça part en vrille.
Lance un soir où tu n'as rien d'urgent le lendemain matin. Au cas où il faille tout reprendre de zéro.
Note tes apprentissages. Trois lignes dans un carnet : ce qui a marché, ce qui a raté, ce que je ferais différemment. C'est la vraie valeur de ton premier essai.

Trois articles pour pousser plus loin

Si cet article t'a parlé, voilà les trois suivants à lire dans cet ordre :

Les loops Claude Code, expliquées — la base technique pour comprendre comment Claude peut tourner en boucle. Indispensable avant de tenter ton propre essai.
Construire un Hermes Agent pas à pas — comment monter un agent qui fait des tâches précises pour toi. La marche d'avant l'auto-amélioration.
Les travaux de Karpathy, vulgarisés — si tu veux comprendre qui est le bonhomme et pourquoi ses idées comptent dans le monde de l'IA.
Le LLM Wiki, ton deuxième cerveau — l'autre projet Karpathy qui complète l'auto-recherche · une encyclopédie locale qui apprend de tes retours.
Mon retour d'XP Claude Code après 6 mois — la routine quotidienne qui rend ce genre d'essais nocturnes possibles sans tout casser le matin.

Et si tu n'as encore jamais touché à Claude ni à ChatGPT, ne saute pas d'étapes. Va lire mon guide débutant d'abord. Tout le reste sera plus facile après.

Si tu veux que je t'envoie d'autres récits comme celui-ci (ce que je teste, ce qui marche, ce qui rate), inscris-toi à AI Playbook — c'est ma veille hebdomadaire, je te partage la même chose qu'à moi-même. Et si tu lances ton premier essai et que tu galères, ou que tu trouves que je raconte n'importe quoi quelque part, écris-moi. Je lis tout, je ne le prends pas mal, et j'apprends souvent plus de tes retours que de mes propres essais.

— Questions fréquentes

FAQ auto-recherche.

C'est quoi l'auto-recherche selon Karpathy ?

L'idée centrale du projet autoresearch d'Andrej Karpathy : tu fais bosser une IA sur un problème, tu lui demandes de modifier son propre travail, elle teste si la nouvelle version est meilleure, garde si oui, jette si non, et recommence en boucle. C'est l'idée la plus simple du monde habillée d'un nom savant.

Comment laisser une IA améliorer son propre code pendant la nuit ?

Tu prépares une liste de référence (200 exemples notés à la main), tu donnes le programme actuel à Claude Code avec un brief en français, tu fixes un plafond de coût en jetons IA, et tu lances le soir. Au matin, l'IA te montre la meilleure version trouvée et la liste de tout ce qu'elle a essayé.

Combien ça coûte de tester 14 versions d'un agent pendant une nuit ?

Mon expérience nocturne sur le tri d'emails m'a coûté 8,40 € en jetons IA pour 9 heures de travail et 14 versions testées, sur un plafond fixé à 15 €. Compte 10 à 15 € pour un premier essai, c'est largement suffisant pour comprendre si ça marche.

Quels cas d'usage non-dev pour l'auto-recherche ?

Quatre cas concrets testés : trouver les meilleurs objets de newsletter (gain 8 à 18 % d'ouvertures), tester 50 variantes de cold email, améliorer la clarté d'articles de blog en s'inspirant des meilleurs passés, et optimiser des fiches produit e-commerce. Le point commun : tu dois pouvoir mesurer objectivement si une version est meilleure.

Quels pièges éviter avant de lancer une boucle d'auto-amélioration ?

Quatre pièges principaux : lancer sans plafond de coût (5 € prévu peut devenir 80 €), ne pas garder de liste secrète de contrôle (l'IA apprend par cœur ta référence), laisser tourner sur du critique (jamais sur ton CRM ou ta facturation), et croire que plus de versions testées donne forcément un meilleur résultat (le gain plafonne vite après 20-30 modifications).

Quels outils permettent de faire de l'auto-recherche concrètement ?

Claude Code (l'application qui permet de discuter avec Claude dans un terminal et de lui faire modifier des fichiers) ou Codex CLI d'OpenAI sont les deux outils principaux aujourd'hui. Compte 30 minutes d'installation la première fois. D'ici 18 mois, ce sera probablement un bouton intégré dans Notion, Zapier ou Make.

Faut-il être développeur pour faire de l'auto-recherche IA ?

Non. Je ne suis pas dev et je n'ai jamais étudié l'informatique. Toute l'expérience a été faite en demandant à Claude d'expliquer chaque étape comme à un débutant et en lui faisant écrire le code. La règle d'or : tant que tu n'as pas compris ce que l'IA a changé, ne mets pas en production.

Quels résultats réalistes attendre d'une boucle d'auto-amélioration ?

10 à 30 % d'amélioration par boucle dans mes essais, avec un plafonnement rapide (la deuxième boucle gagne moins que la première). Sur le tri d'emails, j'ai obtenu 23 % d'emails importants en moins ratés. Les promesses marketing de 200 ou 300 % sont du bruit : Karpathy lui-même calme le jeu et parle de micro-améliorations sur des sujets précis.

C'est quoi la différence entre l'auto-recherche et un fine-tuning classique ?

Un fine-tuning modifie les poids du modèle IA lui-même avec un dataset, ça demande de l'infrastructure et de la donnée. L'auto-recherche modifie le code, le prompt ou la configuration autour du modèle, sans toucher au modèle. C'est plus accessible, moins cher, et applicable à n'importe quoi qui se mesure.

Combien de temps faut-il pour avoir un premier résultat exploitable ?

Compte deux à trois heures la première fois, principalement pour préparer la liste de référence (l'étape la plus longue mais la plus importante). La boucle elle-même tourne pendant la nuit pendant que tu dors. Au matin, tu as ta meilleure version. Compte ensuite deux à cinq essais avant de gagner vraiment du temps : le premier est toujours pour apprendre.

Merci d'avoir lu jusqu'ici 👋

On continue ensemble ?

Je teste l'IA pour de vrai et je partage ce qui marche, sans jargon ni hype. Si cet article t'a servi, le plus simple pour ne rien rater c'est ma lettre du vendredi. Et si tu as une question ou un doute : réponds-moi, je lis tout.

Recevoir la newsletter → Lire d'autres articles