Sans abonnement. Sans envoyer la moindre donnée sur internet. Même en avion, même quand le wifi de la maison fait des siennes. Le tuto pour installer un modèle d'IA sur ton ordi en moins d'une heure, écrit pour quelqu'un qui n'a jamais ouvert un terminal de sa vie.
Il y a deux ans, faire tourner une IA chez soi, c'était un truc de geek barbu qui passait ses week-ends dans le terminal. Aujourd'hui, c'est devenu plus simple qu'installer Photoshop. Tu télécharges une app, tu cliques deux fois, tu choisis un modèle dans une liste, c'est joué.
Ce qui a changé en 2025-2026 : les modèles ouverts ont rattrapé les modèles fermés. Mistral, Llama, DeepSeek, Qwen — tu peux télécharger des IA gratuitement qui rivalisent avec ChatGPT pour la plupart des usages quotidiens. Et le 27 janvier 2025, une boîte chinoise inconnue (DeepSeek) a publié un modèle qui a fait perdre 589 milliards de dollars à NVIDIA en une seule journée. Toute la thèse « il faut des milliards et des serveurs à 100 000 € pour faire de l'IA » s'est effondrée.
Si tu as déjà lu mon article sur l'open source, tu sais d'où vient ce mouvement. Là, on passe à l'étape d'après : comment tu en profites concrètement, sur ton ordi, ce week-end.
Les deux autres, plus subtiles mais qui changent la donne :
Pas de filtre commercial. Les IA cloud refusent parfois de t'aider « parce que c'est du conseil juridique » ou te collent un disclaimer toutes les 3 lignes. Une IA en local fait ce que tu lui demandes, point.
Tu peux brancher tes propres documents. Tu glisses tes PDF, tes notes, tes contrats dans l'outil — et ton IA répond en se basant sur tes documents, pas sur sa mémoire générale. On verra ça en détail à la fin de l'article.
Je préfère te le dire tout de suite, plutôt que tu découvres ça après deux heures d'installation. L'IA en local, c'est génial, mais ce n'est pas magique. Voilà les quatre choses qui pourraient te frustrer si tu ne les sais pas dès le départ.
Sur ChatGPT ou Claude, tu balances une photo, une note vocale et un PDF dans la même conversation, l'IA comprend tout. En local, c'est plus bricolé : tu as besoin d'un outil pour la voix, un pour le texte, un pour les images. Ça marche, mais c'est moins fluide. Le cloud a environ deux ans d'avance là-dessus.
Ton IA en local connaît le monde jusqu'à sa date de fabrication (souvent 6 à 12 mois en arrière), pas après. Pour qu'elle aille chercher des actus sur internet, il faut installer une couche en plus. Faisable, mais pas au menu de base.
Les fonctions à la mode où l'IA prend le contrôle de ton navigateur pour cliquer à ta place, faire 30 minutes de recherche autonome, remplir un formulaire — tout ça demande des modèles tellement énormes que ta machine ne peut pas les faire tourner. Pour l'instant, c'est cloud uniquement.
ChatGPT s'améliore tout seul, en silence. En local, tu dois pull les nouvelles versions à la main quand elles sortent. Pas catastrophique, juste à savoir.
Mon avis honnête : si tu cherches une seule IA qui fait tout, le cloud reste devant pour l'instant. Mais si tu cherches une IA qui respecte tes données, qui marche sans wifi, qui ne te coûte rien après installation — et que tu acceptes l'idée de garder ChatGPT à côté pour les 10 % de cas où le local ne suffit pas — alors tu vas adorer ce qui suit. La bonne réponse en 2026, c'est local + cloud, pas local OU cloud.
Avant d'aller plus loin, il faut savoir si ton ordi peut le faire. Bonne nouvelle : la majorité des MacBook et PC achetés depuis 2022 sont éligibles. Voilà l'équation, expliquée simplement.
Un modèle d'IA, c'est un gros fichier (entre 4 et 40 Go selon sa taille) qui doit être chargé dans la mémoire de ton ordi pour fonctionner. Si ta mémoire est trop petite, ton ordi va « écrire » la suite sur le disque dur — et là, tout devient affreusement lent. Une réponse qui devrait prendre 3 secondes en prend 3 minutes.
Donc la question n°1, c'est : combien de mémoire vive (RAM) tu as ? Tu peux le voir dans les réglages de ton ordi (Mac : « À propos de ce Mac », Windows : clic droit sur « Ce PC » puis Propriétés).
16 Go de RAM sur un Mac (M1, M2, M3, M4 ou M5) ou 12 Go de mémoire vidéo (VRAM) sur un PC avec carte graphique NVIDIA. En dessous, tu te limites aux tout petits modèles, et la frustration arrive vite.
J'ai testé, comparé, demandé à la communauté. Voilà ce que je conseille concrètement selon ce que tu peux mettre.
| Budget | Recommandation | Ce qui tourne dessus |
|---|---|---|
| ~ 800 € Découverte |
MacBook Air M2 16 Go reconditionné chez Apple Refurb | Mistral 7B, Llama 3 8B. Niveau ChatGPT version gratuite. Largement suffisant pour 80 % des usages quotidiens. |
| ~ 2 400 € Sweet spot 2026 |
MacBook Pro M4 Pro 48 Go | Tu fais tourner des modèles 30 milliards de paramètres confortablement, et tu touches du doigt les 70 milliards. Niveau ChatGPT-4 sur beaucoup de tâches. |
| ~ 4 500 € Power user |
Mac Studio M4 Max 64 Go ou PC avec carte RTX 5090 + 64 Go RAM | Llama 70 milliards fluide, plusieurs modèles en parallèle, tu peux entraîner ton propre modèle sur tes données. |
L'option maline qui change tout : récupérer un PC fixe + une carte graphique RTX 3090 d'occasion (650 à 800 €) + 64 Go de RAM, total environ 1 500 €. C'est ce que la communauté qui s'y connaît (sur Reddit, r/LocalLLaMA) recommande depuis 18 mois comme meilleur rapport qualité-prix du marché.
Les Mac avec puce Apple Silicon (M1, M2, M3, M4) ont une particularité magique appelée « mémoire unifiée ». En clair : la mémoire vive ET la mémoire vidéo partagent le même pot. Si ton MacBook a 48 Go, tes 48 Go entiers peuvent servir à l'IA. Sur un PC, la mémoire vive et la mémoire vidéo sont séparées — ce qui complique un peu les choses.
En pratique : si tu es déjà sur Mac, tu n'as rien à changer. Si tu es sur PC, tu peux faire pareil — c'est juste un peu plus technique au départ. Si tu débutes complet et que tu hésites encore, prends Mac : la simplicité d'installation est imbattable.
Acheter un PC avec beaucoup de mémoire vive (64 ou 128 Go) mais une carte graphique faible ou inexistante. Tu pourras techniquement charger les gros modèles, mais ils répondront à 1 mot toutes les 2 secondes. Inutilisable. La carte graphique compte autant que la quantité de mémoire — peut-être même plus.
Il existe une trentaine d'outils pour faire tourner une IA en local. Pas besoin de tous les connaître. Ces quatre-là couvrent 95 % des besoins, du débutant absolu au curieux qui veut creuser.
Le standard 2026. Tu installes, tu tapes une commande, tu chattes. Devenu tellement incontournable que tous les autres outils de la liste s'appuient dessus. Mon premier choix pour 99 % des gens.
Une interface qui ressemble à 99 % à ChatGPT, qui se branche sur Ollama. Tu peux glisser-déposer tes PDF pour discuter avec, créer des comptes pour ta famille. 15 minutes de setup la première fois, ensuite imbattable.
L'app la plus polie du marché. Tu télécharges, tu lances, tu chattes — sans jamais ouvrir un terminal. Inconvénient : pas open source. À choisir si tu détestes la ligne de commande et que la philosophie open source ne te tient pas particulièrement à cœur.
Le plus simple de tous. Tu télécharges, tu choisis un modèle dans une liste intégrée, tu chattes. Idéal pour le tout premier essai. Moins puissant que les autres ensuite, mais zéro friction au démarrage.
Si je devais ne recommander qu'une seule combinaison, ce serait Ollama + Open WebUI. C'est ce qui te donne :
C'est ce qu'on installe ensemble plus bas, étape par étape.
Une fois tes outils en place, tu vas devoir choisir un « modèle » à télécharger. C'est l'équivalent d'un cerveau qu'on installe dans le moteur. Il en existe des dizaines, classés en six grandes familles. Voilà le tour d'horizon, sans rentrer dans les détails techniques.
Quand tu vois « Mistral 7B », le « 7B » veut dire 7 milliards de paramètres. Plus le chiffre est gros, plus le modèle est intelligent — et plus il consomme de mémoire. Un modèle « 7B » pèse environ 4 Go et tient sur 8 Go de mémoire. Un « 70B » pèse 40 Go et demande 64 Go. Voilà, c'est tout ce que tu as besoin de savoir pour démarrer.
| Famille | Origine | Force | À noter |
|---|---|---|---|
| Mistral | France | Excellent en français, vraie licence libre, souveraineté européenne | Le défaut universel pour 80 % des cas |
| Llama | Meta (USA) | L'écosystème le plus riche, le plus de tutos disponibles | Licence un peu restrictive (à lire si usage commercial) |
| DeepSeek | Chine | Le plus surprenant 2025-2026 — niveau de raisonnement bluffant | Évite certains sujets sensibles politiquement |
| Qwen | Alibaba (Chine) | Multilingue (119 langues), excellent pour le code | Encore peu de tutos en français |
| Phi | Microsoft (USA) | Petits modèles très performants, idéal si peu de mémoire | Moins polyvalent en chat ouvert |
| Gemma | Google (USA) | 140+ langues, voit les images | Licence Google maison, pas vraiment libre |
Si tu démarres aujourd'hui, télécharge ces cinq-là dans cet ordre. Total : environ 30 Go, et tu te fais une opinion en une après-midi.
| Modèle | Pour quoi | Poids | Mémoire mini |
|---|---|---|---|
| Mistral 7B | Le défaut universel — chat général, rédaction, brainstorm | 4 Go | 8 Go |
| Llama 3.1 8B | Pour comparer avec Mistral, légèrement meilleur en anglais | 5 Go | 10 Go |
| Qwen 3 4B | Le petit qui dépote — idéal si peu de mémoire | 3 Go | 6 Go |
| DeepSeek R1-Distill 7B | Pour voir le modèle « réfléchir » étape par étape — effet wahou | 5 Go | 10 Go |
| Codestral 22B | Si tu codes (demande au moins 32 Go de mémoire) | 13 Go | 32 Go |
Mon conseil tranché : commence par Mistral 7B. C'est suffisant pour 80 % des usages — rédaction, résumé, brainstorm, traduction, questions générales. Tu verras vite si tu as besoin de plus gros ou plus spécialisé. Pas la peine de remplir ton disque dur dès le premier jour.
Quand tu cherches un modèle, tu vois souvent deux versions : une normale et une marquée « Instruct » (ou « Chat »). Prends toujours la version Instruct. La version normale ne suit pas tes consignes — tu lui demandes « résume ce texte » et elle continue le texte au lieu de le résumer. Avec Ollama et LM Studio, tu n'as pas ce souci : ils prennent automatiquement la version Instruct par défaut.
Voilà la marche à suivre, validée et testée. Je prends Mac comme fil rouge parce que c'est le plus simple, mais je donne les variantes pour Windows et Linux à chaque étape. Compte 15 minutes la première fois, dont la moitié à attendre des téléchargements.
Va sur ollama.com. Clique sur le gros bouton « Download » au milieu de la page. Le site détecte automatiquement ton système. Double-clique sur le fichier téléchargé pour lancer l'installation. Sur Mac, tu glisses l'icône Ollama dans le dossier Applications. Sur Windows, tu valides l'installeur qui s'ouvre.
Vérifie que c'est bien installé : tu dois voir une petite icône en forme de lama dans la barre du haut (Mac) ou la barre des tâches (Windows). Si tu la vois, c'est gagné.
Mac · Windows · Linux — même outil, même installeurLà, tu as deux options. La voie facile : depuis fin 2024, Ollama a une vraie interface graphique. Tu cliques sur l'icône lama, tu tapes mistral dans la barre de recherche, tu cliques sur télécharger. Compte 4 Go et 5 minutes selon ta connexion.
La voie geek (mais pas si dure) : tu ouvres le Terminal (Mac : Cmd + espace, tape « Terminal », Entrée) et tu tapes : ollama pull mistral. Appuie sur Entrée. Le téléchargement démarre, tu vois une barre de progression. Quand c'est fini, tape ollama list pour vérifier que ton modèle est bien là.
Avant d'installer la jolie interface, fais un test rapide pour vérifier que ton IA répond. Dans le Terminal, tape : ollama run mistral. Une invite apparaît. Pose-lui une question : « Salut, tu peux te présenter ? »
Tu devrais avoir une réponse en quelques secondes. Si ça répond, tu as une vraie IA qui tourne sur ton ordi. Coupe ton wifi pour vérifier — ça continue de marcher. Pour quitter, tape /bye et Entrée.
qwen3:4b
Pour avoir l'interface qui ressemble à ChatGPT, on a besoin d'un outil qui s'appelle Docker. Va sur docker.com/products/docker-desktop, télécharge la version pour ton système, lance l'installeur. Quand c'est fini, ouvre Docker Desktop. Tu vois une icône en forme de baleine dans la barre du haut — attends qu'elle arrête de bouger, ça veut dire que Docker est prêt.
Au premier lancement, Docker te demande de créer un compte. C'est gratuit et obligatoire pour l'usage perso. Tu mets ton email, c'est fait.
Sur Linux, Docker est souvent déjà dispo — sinon tapesudo apt install docker.io
Maintenant la partie qui impressionne. Dans le Terminal, copie-colle cette commande exactement comme elle est, et appuie sur Entrée : docker run -d -p 3000:8080 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Le téléchargement démarre (compte 2 à 3 minutes selon ta connexion). Quand le terminal te rend la main, c'est prêt. Tu n'auras plus jamais à refaire cette étape : Open WebUI se lancera tout seul à chaque démarrage de ton ordi.
La commande est longue, c'est normal. Copie-colle d'un coup, ne tape pas à la main.Ouvre ton navigateur et va à l'adresse : http://localhost:3000. Tu vois un écran de connexion. Tu crées le compte admin (le premier compte créé devient automatiquement administrateur). Mets ton email et un mot de passe.
Tu arrives sur une interface qui ressemble à ChatGPT. En haut à gauche, sélectionne mistral dans le menu déroulant. Tape ton premier message. Ta réponse arrive en 2 à 3 secondes sur un Mac M2 ou un PC avec 16 Go de mémoire. Bienvenue chez toi.
Tu peux mettre cette page en favori — c'est ton ChatGPT à toi désormais.Si tout s'est bien passé, tu as maintenant une interface façon ChatGPT, qui répond depuis ta machine, sans envoyer une ligne sur internet. Tu peux couper ton wifi pour le prouver. Tu peux créer plusieurs conversations, l'historique se sauvegarde. Tu peux changer de modèle en un clic. Le tour est joué.
« OK c'est installé, mais je fais quoi avec ? » Voilà six cas d'usage concrets, par profession, qui à eux seuls justifient l'installation. Si l'un d'entre eux te ressemble, c'est que tu en as pour ta peine.
Cabinet de 3 associés, 50 contrats commerciaux à comparer chaque trimestre. Envoyer ces fichiers chez ChatGPT = violation du secret professionnel. Avec Mistral en local + Open WebUI, tu glisses tes 50 PDF, tu poses ta question (« Compare le contrat A et B sur la durée, la résiliation, les pénalités »), et tu as un tableau des différences en 2 minutes. Au lieu de 2 heures de relecture manuelle. Sources citées (page X, section Y) pour vérifier.
Modèle : Mistral · Outil : Open WebUIFamily office, 10 boîtes en portefeuille, 4 trimestres = 40 rapports financiers à digérer pour préparer le board. Ces rapports sont sous accord de confidentialité strict — interdiction légale de les passer chez OpenAI. En local : tu charges les 40 PDF dans ta base de connaissance, tu demandes « pour Acme, identifie 3 tendances clés, 2 alertes, 2 opportunités sur l'année », tu obtiens un tableau exploitable en 5 minutes.
Modèle : Mistral Small · Outil : Open WebUIJournaliste indépendant, 5 heures d'enregistrements à transcrire et fouiller pour un article. Chez Otter ou Rev, tu paies au mois et tes audios passent sur un cloud étranger. Avec Whisper en local (le même outil que Otter utilise en coulisses), tu drag-and-drop tes 5 fichiers, tu attends 15 minutes sur Mac, tu récupères les transcriptions. Ensuite tu demandes à Mistral « extrais les 10 phrases les plus marquantes ». 2 heures de boulot total au lieu de 8.
Modèle : Whisper + Mistral · Outil : Open WebUIConsultant qui anime une formation 2 jours sur la conformité RGPD secteur santé. Tu charges ton ancien support PDF + 4 articles juridiques de référence dans ta base de connaissance. Tu demandes « crée 8 modules, pour chacun : objectifs, contenu de 400 mots, exemple sectoriel, exercice pratique. Inspire-toi du style de mes anciens cours ». Tu sors un support complet en 1 heure de génération + 1 heure de relecture, au lieu d'une semaine de rédaction.
Modèle : Mistral Small · Outil : Open WebUITerminale, bloque sur Kant, a besoin qu'on lui ré-explique 50 fois en variant les angles, sans se faire juger. Tu installes GPT4All, tu télécharges DeepSeek R1 (le modèle qui montre son raisonnement étape par étape), tu lui dis « tu es mon tuteur de philo, explique-moi l'impératif catégorique en partant de zéro avec 3 exemples du quotidien d'ado, puis pose-moi 2 questions pour vérifier ». L'étudiant voit comment le modèle pense — pas juste sa réponse. Pédagogie redoutable.
Modèle : DeepSeek R1 · Outil : GPT4AllMarketeur solo, doit produire 50 visuels par mois pour LinkedIn et pubs Meta. Marre de payer Midjourney 30 €/mois et de subir leurs files d'attente. Avec FLUX.1 schnell en local (gratuit, licence vraiment libre, utilisable en commercial sans contrainte), tu génères tes images depuis ton ordi, à la vitesse que ton matos permet. Tu peux même apprendre à l'outil ton style visuel pour qu'il sorte des images dans ta charte graphique.
Modèle : FLUX.1 schnell · Outil : ComfyUIVoilà la fonction qui change la vie, et qu'on ne te vend jamais correctement. C'est ce qu'on appelle le « RAG ». Le mot fait peur, le concept est très simple.
Imagine que tu engages un assistant ultra brillant. Sans RAG, tu lui poses des questions et il te répond avec ce qu'il a appris à l'école — c'est-à-dire des connaissances générales. Avec le RAG, tu lui donnes ta bibliothèque personnelle et tu lui dis « réponds-moi en te basant sur ces livres-là, et cite les pages exactes ».
En pratique : tu glisses tes PDF, tes notes Word, tes Markdown dans Open WebUI. L'outil les découpe en petits morceaux, les indexe, et quand tu poses une question, il va chercher les passages pertinents dans tes documents et répond en se basant dessus.
Si l'info n'est pas dans tes documents, le modèle ne l'invente pas et te le dit. C'est une qualité, pas un bug : tu sais que la réponse vient bien de ton corpus, pas d'une hallucination de l'IA. Pour un avocat, un médecin, un comptable, c'est cette propriété qui rend l'outil utilisable professionnellement.
Tu as déjà tout installé en suivant le tuto plus haut. Voilà les 3 étapes pour utiliser le RAG :
| Profession | Tu charges | Tu gagnes |
|---|---|---|
| Avocat | Jurisprudence interne, contrats types, mémos | Recherche en 10 sec au lieu de 30 min |
| Médecin | Articles scientifiques, protocoles persos | Synthèse pré-consultation |
| Journaliste | Archives interviews, dossiers en cours | Retrouver une citation perdue en 5 sec |
| Consultant | Decks projets passés, livrables clients | Réutilisation intelligente des anciens contenus |
| Étudiant | Cours + lectures du semestre | Révisions ciblées sur ses propres notes |
| Manager | Doc interne de l'équipe, comptes rendus | Onboarding accéléré pour les nouveaux |
La limite à connaître : la qualité dépend de tes documents. Un PDF scanné illisible, un Excel chaotique, des notes mal structurées — ça donnera des résultats moyens. Plus tes sources sont propres, plus les réponses sont bonnes.
Le débat « local OU cloud » est mal posé. La bonne réponse en 2026, c'est local ET cloud, selon le besoin. Voilà ma matrice de décision honnête.
| Cas d'usage | Local | Cloud | Mon choix |
|---|---|---|---|
| Données sensibles (avocat, médical, financier) | ✅ | ❌ | Local absolu |
| Travail offline (avion, train, panne) | ✅ | ❌ | Local |
| Transcription d'audio confidentiel | ✅ | ❌ | Local absolu |
| Chat quotidien sur sujets non sensibles | ✅ | ✅ | Local — c'est gratuit |
| Code basique, complétion | ✅ | ✅ | Local pour 80 % des cas |
| Recherche web actuelle (news, infos fraîches) | ❌ | ✅ | Cloud |
| IA qui contrôle ton ordi (Computer Use) | Limité | ✅ | Cloud |
| Multimodal complexe (image + texte + audio) | Fragmenté | ✅ | Cloud pour l'instant |
| Brainstorm créatif rapide | ✅ | ✅ | Cloud (plus rapide) |
| Partage en équipe (10+ personnes) | Complexe | ✅ | Cloud |
Concrètement, voilà comment je m'organise au quotidien, en avril 2026 :
Trois apps gèrent les deux dans la même interface si tu veux basculer en un clic : Msty (le plus poli), Open WebUI (open source, tu peux y brancher OpenAI ou Claude en plus du local), Cherry Studio (alternative open source à Msty).
Tu installes Llama 70B sur un MacBook avec 16 Go de mémoire. Le modèle ne tient pas, ton ordi rame, tu attends 30 secondes par mot, tu conclus « le local c'est nul ». Règle simple : taille du modèle (en Go) inférieure à ta mémoire moins 4 Go. 16 Go de mémoire → modèles 7-8B. 32 Go → modèles 13-32B. 64 Go et plus → 70B possible.
Sur les sites de téléchargement, tu vois souvent deux versions du même modèle. La version « base » ne suit pas tes instructions — elle continue ta phrase au lieu de l'exécuter. La version « instruct » (ou « chat ») est celle qui sait répondre à tes consignes. Toujours prendre la version « instruct ». Avec Ollama et LM Studio, c'est automatique, mais si tu télécharges depuis HuggingFace, vérifie.
Chaque outil garde ses modèles dans son coin. Si tu installes Ollama + LM Studio + GPT4All + Jan, tu te retrouves avec le même Mistral 7B téléchargé 4 fois — 16 Go de doublons. Choisis un outil principal (Ollama de préférence) et utilise les autres uniquement comme interface par-dessus.
Première frustration vient souvent d'un mauvais prompt, pas d'un mauvais modèle. Un Mistral 7B avec un prompt soigné bat un Llama 70B avec un prompt naze. Investis dans la qualité de tes consignes : donne un rôle (« tu es un avocat… »), du contexte, le format que tu veux en sortie, et même un exemple si possible.
N'importe qui peut publier un modèle sur les sites communautaires, et certains contiennent du code malveillant. Reste sur les comptes officiels (Mistral AI, Meta, DeepSeek, Microsoft, Google) ou les uploadeurs de référence (TheBloke, bartowski, lmstudio-community). Avec Ollama, c'est sans risque : tous les modèles de leur catalogue sont vérifiés.
Une fois que tu maîtrises le combo Ollama + Open WebUI + RAG, tu as débloqué 95 % des usages. Voilà les pistes pour aller plus loin si tu veux creuser.
Ce qui arrive en 2026-2028 et qui va tout accélérer : Apple Intelligence intégré dans macOS et iOS, les puces NPU dans les nouveaux PC Windows (Copilot+ PC), les modèles toujours plus petits et plus performants. D'ici 2027, des modèles qui tiennent sur un téléphone rivaliseront avec ChatGPT-4 d'aujourd'hui. La trajectoire est claire : ce qui était impossible chez soi en 2023 sera trivial en 2027.
Si tu n'as pas encore lu mon article qui pose les bases — ce qu'est l'open source, comment les boîtes vivent en faisant du gratuit, pourquoi l'IA ouverte change tout — il est juste là : L'open source expliqué pour ceux qui ne sont pas dev. C'est le complément naturel de celui-ci. Et si tu veux le récit du moment où DeepSeek a fait s'effondrer NVIDIA, je le raconte dans l'épisode 4 de mon podcast Guerres d'IA.
Si tu veux que je t'envoie d'autres tutos comme ça (sur l'IA, l'open source, les outils que je teste pour moi en premier), inscris-toi à AI Playbook — c'est ma veille hebdomadaire, je te partage la même chose qu'à moi-même. Et si tu galères sur une étape, ou si tu trouves que je me trompe quelque part, écris-moi. Je lis tout, je ne le prends pas mal.
Il te faut au minimum 16 Go de RAM sur un Mac avec puce Apple Silicon (M1 à M5), ou 12 Go de mémoire vidéo (VRAM) sur un PC avec carte graphique NVIDIA. En dessous, tu te limites aux tout petits modèles et la frustration arrive vite.
Quatre outils couvrent 95 % des besoins : Ollama (le moteur, standard 2026), Open WebUI (interface façon ChatGPT), LM Studio (alternative premium sans terminal) et GPT4All (le plus simple pour le tout premier essai). Pour un non-dev, je recommande le combo Ollama + Open WebUI.
Mistral 7B. C'est le défaut universel, suffisant pour 80 % des usages quotidiens : rédaction, résumé, brainstorm, traduction, questions générales. Le modèle pèse 4 Go et tient sur 8 Go de mémoire.
Les outils et modèles sont gratuits. Côté matériel, trois budgets : ~ 800 € pour un MacBook Air M2 16 Go reconditionné (découverte), ~ 2 400 € pour un MacBook Pro M4 Pro 48 Go (sweet spot 2026), ou ~ 4 500 € pour un Mac Studio M4 Max 64 Go. Option maline : un PC fixe avec une RTX 3090 d'occasion + 64 Go de RAM pour environ 1 500 €.
Oui. Tout reste sur ta machine, sans envoyer une seule ligne sur internet — tu peux couper ton wifi pour le prouver. C'est ce qui rend l'outil utilisable professionnellement pour un avocat, un médecin ou un comptable, là où envoyer des fichiers chez ChatGPT serait une violation du secret professionnel.
Non, pas en 2026. Le cloud garde l'avantage pour la recherche web actuelle, l'IA qui contrôle ton ordi, le multimodal complexe et les gros raisonnements. La bonne réponse c'est local + cloud, pas local OU cloud : local pour le sensible et l'offline, cloud pour l'urgent et le très complexe.
Compte 15 minutes la première fois pour le combo Ollama + Open WebUI, dont la moitié à attendre des téléchargements. Si tu veux juste tester Ollama tout seul en mode terminal, 10 minutes top chrono suffisent.
Pour le chat général : Mistral 7B. Pour le raisonnement étape par étape : DeepSeek R1-Distill 7B. Pour le code (avec 32 Go de mémoire) : Codestral 22B. Pour la génération d'image : FLUX.1 schnell avec ComfyUI. Pour la transcription audio : Whisper en local.
Les deux marchent. Les Mac avec puce Apple Silicon ont une mémoire unifiée : tes 48 Go entiers servent à l'IA. Sur PC, la mémoire vive et la mémoire vidéo sont séparées, c'est un peu plus technique. Si tu débutes complet, prends Mac : la simplicité d'installation est imbattable.
Le RAG, c'est la fonction qui te permet de discuter avec tes propres documents. Tu glisses tes PDF, Word ou notes dans Open WebUI, l'outil les découpe et les indexe, puis quand tu poses une question, le modèle répond en se basant sur tes documents et cite les sources exactes. Si l'info n'y est pas, il ne l'invente pas.
Chaque semaine, je partage les outils IA et open source que je teste pour moi. Pas de blabla, pas de pub. Désinscription en un clic, je ne le prends pas mal.
Voir les newsletters →