Faire tourner un vrai modèle d'IA chez toi

Q: Quelle est la configuration minimum pour faire tourner une IA en local en 2026 ?

Il te faut au minimum 16 Go de RAM sur un Mac avec puce Apple Silicon (M1, M2, M3, M4 ou M5), ou 12 Go de mémoire vidéo (VRAM) sur un PC avec carte graphique NVIDIA. En dessous, tu te limites aux tout petits modèles et la frustration arrive vite.

Q: Quels outils télécharger pour démarrer une IA en local ?

Quatre outils couvrent 95 % des besoins : Ollama (le moteur, standard 2026), Open WebUI (interface façon ChatGPT), LM Studio (alternative premium sans terminal) et GPT4All (le plus simple pour le tout premier essai). Pour un non-dev, je recommande le combo Ollama + Open WebUI.

Q: Quel est le meilleur modèle d'IA en local pour un débutant ?

Mistral 7B. C'est le défaut universel, suffisant pour 80 % des usages quotidiens : rédaction, résumé, brainstorm, traduction, questions générales. Le modèle pèse 4 Go et tient sur 8 Go de mémoire.

Q: Combien de temps prend l'installation d'une IA en local ?

Compte 15 minutes la première fois pour le combo Ollama + Open WebUI, dont la moitié à attendre des téléchargements. Si tu veux juste tester Ollama tout seul en mode terminal, 10 minutes top chrono suffisent.

Q: Quel modèle pour quel usage (chat, code, image) ?

Pour le chat général : Mistral 7B. Pour le raisonnement étape par étape : DeepSeek R1-Distill 7B. Pour le code (avec 32 Go de mémoire) : Codestral 22B. Pour la génération d'image : FLUX.1 schnell avec ComfyUI. Pour la transcription audio : Whisper en local.

Q: Faut-il un Mac ou un PC pour faire tourner une IA en local ?

Les deux marchent. Les Mac avec puce Apple Silicon ont une mémoire unifiée : tes 48 Go entiers servent à l'IA. Sur PC, la mémoire vive et la mémoire vidéo sont séparées, c'est un peu plus technique. Si tu débutes complet, prends Mac : la simplicité d'installation est imbattable.

Q: C'est quoi le RAG en IA locale ?

Le RAG (Retrieval-Augmented Generation), c'est la fonction qui te permet de discuter avec tes propres documents. Tu glisses tes PDF, Word ou notes dans Open WebUI, l'outil les découpe et les indexe, puis quand tu poses une question, le modèle répond en se basant sur tes documents et cite les sources exactes. Si l'info n'y est pas, il ne l'invente pas.

— Pourquoi tu devrais t'y intéresser

Pourquoi c'est devenu sérieux.

Il y a deux ans, faire tourner une IA chez soi, c'était un truc de geek barbu qui passait ses week-ends dans le terminal. Aujourd'hui, c'est devenu plus simple qu'installer Photoshop. Tu télécharges une app, tu cliques deux fois, tu choisis un modèle dans une liste, c'est joué.

Ce qui a changé en 2025-2026 : les modèles ouverts ont rattrapé les modèles fermés. Mistral, Llama, DeepSeek, Qwen — tu peux télécharger des IA gratuitement qui rivalisent avec ChatGPT pour la plupart des usages quotidiens. Et le 27 janvier 2025, une boîte chinoise inconnue (DeepSeek) a publié un modèle qui a fait perdre 589 milliards de dollars à NVIDIA en une seule journée. Toute la thèse « il faut des milliards et des serveurs à 100 000 € pour faire de l'IA » s'est effondrée.

Si tu as déjà lu mon article sur l'open source, tu sais d'où vient ce mouvement. Là, on passe à l'étape d'après : comment tu en profites concrètement, sur ton ordi, ce week-end.

Cinq raisons concrètes de s'y mettre

Confidentialité

100 %

Aucune donnée ne sort de ta machine. Pour un avocat, un médecin, un comptable, c'est une obligation légale, pas un confort.

Coût mensuel

0 €

Pas d'abonnement, pas de quota, pas de « vous avez atteint votre limite ». Une fois installé, c'est gratuit pour la vie.

Marche offline

Train, avion, panne

Coupe ton wifi : ton IA continue de répondre. Game changer pour les déplacements et les zones blanches.

Les deux autres, plus subtiles mais qui changent la donne :

Pas de filtre commercial. Les IA cloud refusent parfois de t'aider « parce que c'est du conseil juridique » ou te collent un disclaimer toutes les 3 lignes. Une IA en local fait ce que tu lui demandes, point.

Tu peux brancher tes propres documents. Tu glisses tes PDF, tes notes, tes contrats dans l'outil — et ton IA répond en se basant sur tes documents, pas sur sa mémoire générale. On verra ça en détail à la fin de l'article.

— L'autre côté de la médaille

Pourquoi tu pourrais abandonner.

Je préfère te le dire tout de suite, plutôt que tu découvres ça après deux heures d'installation. L'IA en local, c'est génial, mais ce n'est pas magique. Voilà les quatre choses qui pourraient te frustrer si tu ne les sais pas dès le départ.

1. Le multimodal complet, c'est encore la chasse gardée du cloud

Sur ChatGPT ou Claude, tu balances une photo, une note vocale et un PDF dans la même conversation, l'IA comprend tout. En local, c'est plus bricolé : tu as besoin d'un outil pour la voix, un pour le texte, un pour les images. Ça marche, mais c'est moins fluide. Le cloud a environ deux ans d'avance là-dessus.

2. Pas de recherche web automatique

Ton IA en local connaît le monde jusqu'à sa date de fabrication (souvent 6 à 12 mois en arrière), pas après. Pour qu'elle aille chercher des actus sur internet, il faut installer une couche en plus. Faisable, mais pas au menu de base.

3. L'IA qui contrôle ton ordi, c'est cloud-only

Les fonctions à la mode où l'IA prend le contrôle de ton navigateur pour cliquer à ta place, faire 30 minutes de recherche autonome, remplir un formulaire — tout ça demande des modèles tellement énormes que ta machine ne peut pas les faire tourner. Pour l'instant, c'est cloud uniquement.

4. Mises à jour à faire toi-même

ChatGPT s'améliore tout seul, en silence. En local, tu dois pull les nouvelles versions à la main quand elles sortent. Pas catastrophique, juste à savoir.

Mon avis honnête : si tu cherches une seule IA qui fait tout, le cloud reste devant pour l'instant. Mais si tu cherches une IA qui respecte tes données, qui marche sans wifi, qui ne te coûte rien après installation — et que tu acceptes l'idée de garder ChatGPT à côté pour les 10 % de cas où le local ne suffit pas — alors tu vas adorer ce qui suit. La bonne réponse en 2026, c'est local + cloud, pas local OU cloud.

— Le matos

Ce qu'il te faut vraiment.

Avant d'aller plus loin, il faut savoir si ton ordi peut le faire. Bonne nouvelle : la majorité des MacBook et PC achetés depuis 2022 sont éligibles. Voilà l'équation, expliquée simplement.

L'équation en deux mots : la mémoire

Un modèle d'IA, c'est un gros fichier (entre 4 et 40 Go selon sa taille) qui doit être chargé dans la mémoire de ton ordi pour fonctionner. Si ta mémoire est trop petite, ton ordi va « écrire » la suite sur le disque dur — et là, tout devient affreusement lent. Une réponse qui devrait prendre 3 secondes en prend 3 minutes.

Donc la question n°1, c'est : combien de mémoire vive (RAM) tu as ? Tu peux le voir dans les réglages de ton ordi (Mac : « À propos de ce Mac », Windows : clic droit sur « Ce PC » puis Propriétés).

Le minimum pour démarrer en avril 2026

16 Go de RAM sur un Mac (M1, M2, M3, M4 ou M5) ou 12 Go de mémoire vidéo (VRAM) sur un PC avec carte graphique NVIDIA. En dessous, tu te limites aux tout petits modèles, et la frustration arrive vite.

Trois budgets, trois options

J'ai testé, comparé, demandé à la communauté. Voilà ce que je conseille concrètement selon ce que tu peux mettre.

Budget	Recommandation	Ce qui tourne dessus
~ 800 € Découverte	MacBook Air M2 16 Go reconditionné chez Apple Refurb	Mistral 7B, Llama 3 8B. Niveau ChatGPT version gratuite. Largement suffisant pour 80 % des usages quotidiens.
~ 2 400 € Sweet spot 2026	MacBook Pro M4 Pro 48 Go	Tu fais tourner des modèles 30 milliards de paramètres confortablement, et tu touches du doigt les 70 milliards. Niveau ChatGPT-4 sur beaucoup de tâches.
~ 4 500 € Power user	Mac Studio M4 Max 64 Go ou PC avec carte RTX 5090 + 64 Go RAM	Llama 70 milliards fluide, plusieurs modèles en parallèle, tu peux entraîner ton propre modèle sur tes données.

L'option maline qui change tout : récupérer un PC fixe + une carte graphique RTX 3090 d'occasion (650 à 800 €) + 64 Go de RAM, total environ 1 500 €. C'est ce que la communauté qui s'y connaît (sur Reddit, r/LocalLLaMA) recommande depuis 18 mois comme meilleur rapport qualité-prix du marché.

Mac ou PC ?

Les Mac avec puce Apple Silicon (M1, M2, M3, M4) ont une particularité magique appelée « mémoire unifiée ». En clair : la mémoire vive ET la mémoire vidéo partagent le même pot. Si ton MacBook a 48 Go, tes 48 Go entiers peuvent servir à l'IA. Sur un PC, la mémoire vive et la mémoire vidéo sont séparées — ce qui complique un peu les choses.

En pratique : si tu es déjà sur Mac, tu n'as rien à changer. Si tu es sur PC, tu peux faire pareil — c'est juste un peu plus technique au départ. Si tu débutes complet et que tu hésites encore, prends Mac : la simplicité d'installation est imbattable.

Le piège n°1 à éviter à l'achat

Acheter un PC avec beaucoup de mémoire vive (64 ou 128 Go) mais une carte graphique faible ou inexistante. Tu pourras techniquement charger les gros modèles, mais ils répondront à 1 mot toutes les 2 secondes. Inutilisable. La carte graphique compte autant que la quantité de mémoire — peut-être même plus.

— Ta boîte à outils

Les quatre outils à connaître.

Il existe une trentaine d'outils pour faire tourner une IA en local. Pas besoin de tous les connaître. Ces quatre-là couvrent 95 % des besoins, du débutant absolu au curieux qui veut creuser.

Ollama — le défaut absolu

Gratuit · Open source · Mac/Win/Linux

Le standard 2026. Tu installes, tu tapes une commande, tu chattes. Devenu tellement incontournable que tous les autres outils de la liste s'appuient dessus. Mon premier choix pour 99 % des gens.

Open WebUI — l'interface ChatGPT chez toi

Gratuit · Open source · web app

Une interface qui ressemble à 99 % à ChatGPT, qui se branche sur Ollama. Tu peux glisser-déposer tes PDF pour discuter avec, créer des comptes pour ta famille. 15 minutes de setup la première fois, ensuite imbattable.

LM Studio — la voie premium

Gratuit · Propriétaire · Mac/Win/Linux

L'app la plus polie du marché. Tu télécharges, tu lances, tu chattes — sans jamais ouvrir un terminal. Inconvénient : pas open source. À choisir si tu détestes la ligne de commande et que la philosophie open source ne te tient pas particulièrement à cœur.

GPT4All — le « install et c'est joué »

Gratuit · Open source · Mac/Win/Linux

Le plus simple de tous. Tu télécharges, tu choisis un modèle dans une liste intégrée, tu chattes. Idéal pour le tout premier essai. Moins puissant que les autres ensuite, mais zéro friction au démarrage.

Le combo gagnant 2026 pour non-dev

Si je devais ne recommander qu'une seule combinaison, ce serait Ollama + Open WebUI. C'est ce qui te donne :

La simplicité d'Ollama pour télécharger et gérer les modèles
L'interface ChatGPT d'Open WebUI (historique, conversations multiples, code coloré)
La possibilité de discuter avec tes propres documents (glisser-déposer un PDF et poser des questions)
Le partage avec ta famille ou ton équipe si tu veux (chacun son compte, ses chats privés)
Le tout, 100 % gratuit et entièrement sur ta machine

C'est ce qu'on installe ensemble plus bas, étape par étape.

— Le cerveau

Quel modèle pour quoi faire.

Une fois tes outils en place, tu vas devoir choisir un « modèle » à télécharger. C'est l'équivalent d'un cerveau qu'on installe dans le moteur. Il en existe des dizaines, classés en six grandes familles. Voilà le tour d'horizon, sans rentrer dans les détails techniques.

Comment lire les noms (en deux phrases)

Quand tu vois « Mistral 7B », le « 7B » veut dire 7 milliards de paramètres. Plus le chiffre est gros, plus le modèle est intelligent — et plus il consomme de mémoire. Un modèle « 7B » pèse environ 4 Go et tient sur 8 Go de mémoire. Un « 70B » pèse 40 Go et demande 64 Go. Voilà, c'est tout ce que tu as besoin de savoir pour démarrer.

Les six familles à connaître

Famille	Origine	Force	À noter
Mistral	France	Excellent en français, vraie licence libre, souveraineté européenne	Le défaut universel pour 80 % des cas
Llama	Meta (USA)	L'écosystème le plus riche, le plus de tutos disponibles	Licence un peu restrictive (à lire si usage commercial)
DeepSeek	Chine	Le plus surprenant 2025-2026 — niveau de raisonnement bluffant	Évite certains sujets sensibles politiquement
Qwen	Alibaba (Chine)	Multilingue (119 langues), excellent pour le code	Encore peu de tutos en français
Phi	Microsoft (USA)	Petits modèles très performants, idéal si peu de mémoire	Moins polyvalent en chat ouvert
Gemma	Google (USA)	140+ langues, voit les images	Licence Google maison, pas vraiment libre

Les cinq modèles à essayer en premier

Si tu démarres aujourd'hui, télécharge ces cinq-là dans cet ordre. Total : environ 30 Go, et tu te fais une opinion en une après-midi.

Modèle	Pour quoi	Poids	Mémoire mini
Mistral 7B	Le défaut universel — chat général, rédaction, brainstorm	4 Go	8 Go
Llama 3.1 8B	Pour comparer avec Mistral, légèrement meilleur en anglais	5 Go	10 Go
Qwen 3 4B	Le petit qui dépote — idéal si peu de mémoire	3 Go	6 Go
DeepSeek R1-Distill 7B	Pour voir le modèle « réfléchir » étape par étape — effet wahou	5 Go	10 Go
Codestral 22B	Si tu codes (demande au moins 32 Go de mémoire)	13 Go	32 Go

Mon conseil tranché : commence par Mistral 7B. C'est suffisant pour 80 % des usages — rédaction, résumé, brainstorm, traduction, questions générales. Tu verras vite si tu as besoin de plus gros ou plus spécialisé. Pas la peine de remplir ton disque dur dès le premier jour.

Le piège qui fait hurler 9 débutants sur 10

Quand tu cherches un modèle, tu vois souvent deux versions : une normale et une marquée « Instruct » (ou « Chat »). Prends toujours la version Instruct. La version normale ne suit pas tes consignes — tu lui demandes « résume ce texte » et elle continue le texte au lieu de le résumer. Avec Ollama et LM Studio, tu n'as pas ce souci : ils prennent automatiquement la version Instruct par défaut.

— Le tuto complet

On installe ensemble.

Voilà la marche à suivre, validée et testée. Je prends Mac comme fil rouge parce que c'est le plus simple, mais je donne les variantes pour Windows et Linux à chaque étape. Compte 15 minutes la première fois, dont la moitié à attendre des téléchargements.

01

Installer Ollama (le moteur)

Va sur ollama.com. Clique sur le gros bouton « Download » au milieu de la page. Le site détecte automatiquement ton système. Double-clique sur le fichier téléchargé pour lancer l'installation. Sur Mac, tu glisses l'icône Ollama dans le dossier Applications. Sur Windows, tu valides l'installeur qui s'ouvre.

Vérifie que c'est bien installé : tu dois voir une petite icône en forme de lama dans la barre du haut (Mac) ou la barre des tâches (Windows). Si tu la vois, c'est gagné.

Mac · Windows · Linux — même outil, même installeur

02

Télécharger ton premier modèle

Là, tu as deux options. La voie facile : depuis fin 2024, Ollama a une vraie interface graphique. Tu cliques sur l'icône lama, tu tapes mistral dans la barre de recherche, tu cliques sur télécharger. Compte 4 Go et 5 minutes selon ta connexion.

La voie geek (mais pas si dure) : tu ouvres le Terminal (Mac : Cmd + espace, tape « Terminal », Entrée) et tu tapes : ollama pull mistral. Appuie sur Entrée. Le téléchargement démarre, tu vois une barre de progression. Quand c'est fini, tape ollama list pour vérifier que ton modèle est bien là.

Mac : Cmd + espace puis « Terminal » · Windows : Touche Windows puis « cmd »

03

Tester en mode brut (optionnel mais satisfaisant)

Avant d'installer la jolie interface, fais un test rapide pour vérifier que ton IA répond. Dans le Terminal, tape : ollama run mistral. Une invite apparaît. Pose-lui une question : « Salut, tu peux te présenter ? »

Tu devrais avoir une réponse en quelques secondes. Si ça répond, tu as une vraie IA qui tourne sur ton ordi. Coupe ton wifi pour vérifier — ça continue de marcher. Pour quitter, tape /bye et Entrée.

Si la réponse arrive lentement (1 mot toutes les 2 secondes) → ton ordi rame, prends un modèle plus petit comme qwen3:4b

04

Installer Docker (la base d'Open WebUI)

Pour avoir l'interface qui ressemble à ChatGPT, on a besoin d'un outil qui s'appelle Docker. Va sur docker.com/products/docker-desktop, télécharge la version pour ton système, lance l'installeur. Quand c'est fini, ouvre Docker Desktop. Tu vois une icône en forme de baleine dans la barre du haut — attends qu'elle arrête de bouger, ça veut dire que Docker est prêt.

Au premier lancement, Docker te demande de créer un compte. C'est gratuit et obligatoire pour l'usage perso. Tu mets ton email, c'est fait.

Sur Linux, Docker est souvent déjà dispo — sinon tape sudo apt install docker.io

05

Lancer Open WebUI (l'interface)

Maintenant la partie qui impressionne. Dans le Terminal, copie-colle cette commande exactement comme elle est, et appuie sur Entrée : docker run -d -p 3000:8080 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Le téléchargement démarre (compte 2 à 3 minutes selon ta connexion). Quand le terminal te rend la main, c'est prêt. Tu n'auras plus jamais à refaire cette étape : Open WebUI se lancera tout seul à chaque démarrage de ton ordi.

La commande est longue, c'est normal. Copie-colle d'un coup, ne tape pas à la main.

06

Premier chat dans la jolie interface

Ouvre ton navigateur et va à l'adresse : http://localhost:3000. Tu vois un écran de connexion. Tu crées le compte admin (le premier compte créé devient automatiquement administrateur). Mets ton email et un mot de passe.

Tu arrives sur une interface qui ressemble à ChatGPT. En haut à gauche, sélectionne mistral dans le menu déroulant. Tape ton premier message. Ta réponse arrive en 2 à 3 secondes sur un Mac M2 ou un PC avec 16 Go de mémoire. Bienvenue chez toi.

Tu peux mettre cette page en favori — c'est ton ChatGPT à toi désormais.

Et voilà, tu as une IA qui tourne chez toi

Si tout s'est bien passé, tu as maintenant une interface façon ChatGPT, qui répond depuis ta machine, sans envoyer une ligne sur internet. Tu peux couper ton wifi pour le prouver. Tu peux créer plusieurs conversations, l'historique se sauvegarde. Tu peux changer de modèle en un clic. Le tour est joué.

— Pour quoi faire concrètement

Six exemples qui justifient tout.

« OK c'est installé, mais je fais quoi avec ? » Voilà six cas d'usage concrets, par profession, qui à eux seuls justifient l'installation. Si l'un d'entre eux te ressemble, c'est que tu en as pour ta peine.

Cas 01
Avocat

Analyser 50 contrats clients

Cabinet de 3 associés, 50 contrats commerciaux à comparer chaque trimestre. Envoyer ces fichiers chez ChatGPT = violation du secret professionnel. Avec Mistral en local + Open WebUI, tu glisses tes 50 PDF, tu poses ta question (« Compare le contrat A et B sur la durée, la résiliation, les pénalités »), et tu as un tableau des différences en 2 minutes. Au lieu de 2 heures de relecture manuelle. Sources citées (page X, section Y) pour vérifier.

Modèle : Mistral · Outil : Open WebUI

Cas 02
Directeur financier

Analyser 40 rapports trimestriels

Family office, 10 boîtes en portefeuille, 4 trimestres = 40 rapports financiers à digérer pour préparer le board. Ces rapports sont sous accord de confidentialité strict — interdiction légale de les passer chez OpenAI. En local : tu charges les 40 PDF dans ta base de connaissance, tu demandes « pour Acme, identifie 3 tendances clés, 2 alertes, 2 opportunités sur l'année », tu obtiens un tableau exploitable en 5 minutes.

Modèle : Mistral Small · Outil : Open WebUI

Cas 03
Journaliste

Transcrire 5h d'interviews

Journaliste indépendant, 5 heures d'enregistrements à transcrire et fouiller pour un article. Chez Otter ou Rev, tu paies au mois et tes audios passent sur un cloud étranger. Avec Whisper en local (le même outil que Otter utilise en coulisses), tu drag-and-drop tes 5 fichiers, tu attends 15 minutes sur Mac, tu récupères les transcriptions. Ensuite tu demandes à Mistral « extrais les 10 phrases les plus marquantes ». 2 heures de boulot total au lieu de 8.

Modèle : Whisper + Mistral · Outil : Open WebUI

Cas 04
Formateur

Générer un support de cours

Consultant qui anime une formation 2 jours sur la conformité RGPD secteur santé. Tu charges ton ancien support PDF + 4 articles juridiques de référence dans ta base de connaissance. Tu demandes « crée 8 modules, pour chacun : objectifs, contenu de 400 mots, exemple sectoriel, exercice pratique. Inspire-toi du style de mes anciens cours ». Tu sors un support complet en 1 heure de génération + 1 heure de relecture, au lieu d'une semaine de rédaction.

Modèle : Mistral Small · Outil : Open WebUI

Cas 05
Étudiant

Avoir un tuteur perso 24h/24

Terminale, bloque sur Kant, a besoin qu'on lui ré-explique 50 fois en variant les angles, sans se faire juger. Tu installes GPT4All, tu télécharges DeepSeek R1 (le modèle qui montre son raisonnement étape par étape), tu lui dis « tu es mon tuteur de philo, explique-moi l'impératif catégorique en partant de zéro avec 3 exemples du quotidien d'ado, puis pose-moi 2 questions pour vérifier ». L'étudiant voit comment le modèle pense — pas juste sa réponse. Pédagogie redoutable.

Modèle : DeepSeek R1 · Outil : GPT4All

Cas 06
Créatif

Générer 50 visuels par mois

Marketeur solo, doit produire 50 visuels par mois pour LinkedIn et pubs Meta. Marre de payer Midjourney 30 €/mois et de subir leurs files d'attente. Avec FLUX.1 schnell en local (gratuit, licence vraiment libre, utilisable en commercial sans contrainte), tu génères tes images depuis ton ordi, à la vitesse que ton matos permet. Tu peux même apprendre à l'outil ton style visuel pour qu'il sorte des images dans ta charte graphique.

Modèle : FLUX.1 schnell · Outil : ComfyUI

— Le coup de force

Discuter avec tes propres documents.

Voilà la fonction qui change la vie, et qu'on ne te vend jamais correctement. C'est ce qu'on appelle le « RAG ». Le mot fait peur, le concept est très simple.

L'analogie qui parle

Imagine que tu engages un assistant ultra brillant. Sans RAG, tu lui poses des questions et il te répond avec ce qu'il a appris à l'école — c'est-à-dire des connaissances générales. Avec le RAG, tu lui donnes ta bibliothèque personnelle et tu lui dis « réponds-moi en te basant sur ces livres-là, et cite les pages exactes ».

En pratique : tu glisses tes PDF, tes notes Word, tes Markdown dans Open WebUI. L'outil les découpe en petits morceaux, les indexe, et quand tu poses une question, il va chercher les passages pertinents dans tes documents et répond en se basant dessus.

La conséquence qui change tout

Si l'info n'est pas dans tes documents, le modèle ne l'invente pas et te le dit. C'est une qualité, pas un bug : tu sais que la réponse vient bien de ton corpus, pas d'une hallucination de l'IA. Pour un avocat, un médecin, un comptable, c'est cette propriété qui rend l'outil utilisable professionnellement.

Comment l'activer dans Open WebUI

Tu as déjà tout installé en suivant le tuto plus haut. Voilà les 3 étapes pour utiliser le RAG :

Crée une base de connaissance : dans Open WebUI, clique sur « Workspace » à gauche, puis « Knowledge », puis « + New Knowledge ». Donne-lui un nom (par exemple « Mes contrats clients »).
Glisse-dépose tes documents : tu peux mettre des PDF, des Word, des Markdown, des notes. L'outil les indexe automatiquement (compte quelques minutes pour 50 documents).
Pose tes questions : crée un nouveau chat, sélectionne ta base de connaissance dans le menu, pose ta question. Le modèle répond en citant les sources exactes (page X du document Y).

Les six cas où le RAG est imbattable

Profession	Tu charges	Tu gagnes
Avocat	Jurisprudence interne, contrats types, mémos	Recherche en 10 sec au lieu de 30 min
Médecin	Articles scientifiques, protocoles persos	Synthèse pré-consultation
Journaliste	Archives interviews, dossiers en cours	Retrouver une citation perdue en 5 sec
Consultant	Decks projets passés, livrables clients	Réutilisation intelligente des anciens contenus
Étudiant	Cours + lectures du semestre	Révisions ciblées sur ses propres notes
Manager	Doc interne de l'équipe, comptes rendus	Onboarding accéléré pour les nouveaux

La limite à connaître : la qualité dépend de tes documents. Un PDF scanné illisible, un Excel chaotique, des notes mal structurées — ça donnera des résultats moyens. Plus tes sources sont propres, plus les réponses sont bonnes.

— La vraie comparaison

Local vs cloud : le verdict.

Le débat « local OU cloud » est mal posé. La bonne réponse en 2026, c'est local ET cloud, selon le besoin. Voilà ma matrice de décision honnête.

Cas d'usage	Local	Cloud	Mon choix
Données sensibles (avocat, médical, financier)	✅	❌	Local absolu
Travail offline (avion, train, panne)	✅	❌	Local
Transcription d'audio confidentiel	✅	❌	Local absolu
Chat quotidien sur sujets non sensibles	✅	✅	Local — c'est gratuit
Code basique, complétion	✅	✅	Local pour 80 % des cas
Recherche web actuelle (news, infos fraîches)	❌	✅	Cloud
IA qui contrôle ton ordi (Computer Use)	Limité	✅	Cloud
Multimodal complexe (image + texte + audio)	Fragmenté	✅	Cloud pour l'instant
Brainstorm créatif rapide	✅	✅	Cloud (plus rapide)
Partage en équipe (10+ personnes)	Complexe	✅	Cloud

Mon workflow perso (la version honnête)

Concrètement, voilà comment je m'organise au quotidien, en avril 2026 :

Local : tout ce qui touche à mes documents pro, mes contrats, mes brouillons sensibles. Plus la transcription audio et le chat quotidien quand je peux attendre 2 secondes de plus pour une réponse.
Cloud (ChatGPT, Claude) : recherche web actuelle, gros raisonnements complexes, agentic moderne, et urgence où chaque seconde compte.

Trois apps gèrent les deux dans la même interface si tu veux basculer en un clic : Msty (le plus poli), Open WebUI (open source, tu peux y brancher OpenAI ou Claude en plus du local), Cherry Studio (alternative open source à Msty).

— Les pièges à éviter

Les cinq erreurs de débutant.

🐌

Piège 1 — Télécharger un modèle trop gros

Tu installes Llama 70B sur un MacBook avec 16 Go de mémoire. Le modèle ne tient pas, ton ordi rame, tu attends 30 secondes par mot, tu conclus « le local c'est nul ». Règle simple : taille du modèle (en Go) inférieure à ta mémoire moins 4 Go. 16 Go de mémoire → modèles 7-8B. 32 Go → modèles 13-32B. 64 Go et plus → 70B possible.

🎭

Piège 2 — Confondre « base » et « instruct »

Sur les sites de téléchargement, tu vois souvent deux versions du même modèle. La version « base » ne suit pas tes instructions — elle continue ta phrase au lieu de l'exécuter. La version « instruct » (ou « chat ») est celle qui sait répondre à tes consignes. Toujours prendre la version « instruct ». Avec Ollama et LM Studio, c'est automatique, mais si tu télécharges depuis HuggingFace, vérifie.

📦

Piège 3 — Installer 5 outils en parallèle

Chaque outil garde ses modèles dans son coin. Si tu installes Ollama + LM Studio + GPT4All + Jan, tu te retrouves avec le même Mistral 7B téléchargé 4 fois — 16 Go de doublons. Choisis un outil principal (Ollama de préférence) et utilise les autres uniquement comme interface par-dessus.

⚡

Piège 4 — Tester 5 minutes et conclure « ça marche pas »

Première frustration vient souvent d'un mauvais prompt, pas d'un mauvais modèle. Un Mistral 7B avec un prompt soigné bat un Llama 70B avec un prompt naze. Investis dans la qualité de tes consignes : donne un rôle (« tu es un avocat… »), du contexte, le format que tu veux en sortie, et même un exemple si possible.

⚠️

Piège 5 — Télécharger un modèle d'origine douteuse

N'importe qui peut publier un modèle sur les sites communautaires, et certains contiennent du code malveillant. Reste sur les comptes officiels (Mistral AI, Meta, DeepSeek, Microsoft, Google) ou les uploadeurs de référence (TheBloke, bartowski, lmstudio-community). Avec Ollama, c'est sans risque : tous les modèles de leur catalogue sont vérifiés.

— Pour aller plus loin

Et après ?

Une fois que tu maîtrises le combo Ollama + Open WebUI + RAG, tu as débloqué 95 % des usages. Voilà les pistes pour aller plus loin si tu veux creuser.

Continue.dev — extension gratuite pour VS Code qui branche ton Ollama dans ton éditeur. Tu remplaces GitHub Copilot (10 €/mois) par du gratuit local. 10 minutes de setup pour qui code.
n8n + Ollama — n8n est l'équivalent open source de Zapier. Tu peux brancher ton IA locale dans des workflows : « quand un email arrive, résume-le, poste sur Slack ». Pour les bidouilleurs.
Home Assistant + Ollama — pilote ta maison à la voix, en local, sans qu'Alexa écoute tout. Setup pour passionnés (un week-end).
Génération d'image avec FLUX — installe ComfyUI et tu génères tes images chez toi. Compte 2 jours pour comprendre l'interface, ensuite tu fais ce que tu veux.
Fine-tuner ton propre modèle — l'étape suivante, ambitieuse mais accessible. Tu prends un modèle existant, tu lui ré-apprends ton style d'écriture ou ton domaine. Réservé aux mordus, mais possible chez soi sur un Mac M4.

Ce qui arrive en 2026-2028 et qui va tout accélérer : Apple Intelligence intégré dans macOS et iOS, les puces NPU dans les nouveaux PC Windows (Copilot+ PC), les modèles toujours plus petits et plus performants. D'ici 2027, des modèles qui tiennent sur un téléphone rivaliseront avec ChatGPT-4 d'aujourd'hui. La trajectoire est claire : ce qui était impossible chez soi en 2023 sera trivial en 2027.

Si tu n'as pas encore lu mon article qui pose les bases — ce qu'est l'open source, comment les boîtes vivent en faisant du gratuit, pourquoi l'IA ouverte change tout — il est juste là : L'open source expliqué pour ceux qui ne sont pas dev. C'est le complément naturel de celui-ci. Et si tu veux le récit du moment où DeepSeek a fait s'effondrer NVIDIA, je le raconte dans l'épisode 4 de mon podcast Guerres d'IA.

Trois choses à faire ce week-end

Installe Ollama et fais ton premier chat. 10 minutes top chrono. Tu verras de tes yeux qu'une IA peut tourner sur ton ordi sans abonnement.
Pousse jusqu'à Open WebUI si tu veux la jolie interface ChatGPT et le RAG. 15 minutes de plus.
Charge tes 10 derniers PDF de boulot dans une base de connaissance et pose-leur une vraie question pro. C'est ce moment-là où tu comprends pourquoi c'est non négociable pour certaines professions.

Si tu veux que je t'envoie d'autres tutos comme ça (sur l'IA, l'open source, les outils que je teste pour moi en premier), inscris-toi à AI Playbook — c'est ma veille hebdomadaire, je te partage la même chose qu'à moi-même. Et si tu galères sur une étape, ou si tu trouves que je me trompe quelque part, écris-moi. Je lis tout, je ne le prends pas mal.

— Questions fréquentes

FAQ IA en local.

Quelle est la configuration minimum pour faire tourner une IA en local en 2026 ?

Il te faut au minimum 16 Go de RAM sur un Mac avec puce Apple Silicon (M1 à M5), ou 12 Go de mémoire vidéo (VRAM) sur un PC avec carte graphique NVIDIA. En dessous, tu te limites aux tout petits modèles et la frustration arrive vite.

Quels outils télécharger pour démarrer ?

Quatre outils couvrent 95 % des besoins : Ollama (le moteur, standard 2026), Open WebUI (interface façon ChatGPT), LM Studio (alternative premium sans terminal) et GPT4All (le plus simple pour le tout premier essai). Pour un non-dev, je recommande le combo Ollama + Open WebUI.

Quel est le meilleur modèle pour un débutant ?

Mistral 7B. C'est le défaut universel, suffisant pour 80 % des usages quotidiens : rédaction, résumé, brainstorm, traduction, questions générales. Le modèle pèse 4 Go et tient sur 8 Go de mémoire.

Combien coûte la mise en place ?

Les outils et modèles sont gratuits. Côté matériel, trois budgets : ~ 800 € pour un MacBook Air M2 16 Go reconditionné (découverte), ~ 2 400 € pour un MacBook Pro M4 Pro 48 Go (sweet spot 2026), ou ~ 4 500 € pour un Mac Studio M4 Max 64 Go. Option maline : un PC fixe avec une RTX 3090 d'occasion + 64 Go de RAM pour environ 1 500 €.

Mes données restent-elles vraiment confidentielles ?

Oui. Tout reste sur ta machine, sans envoyer une seule ligne sur internet — tu peux couper ton wifi pour le prouver. C'est ce qui rend l'outil utilisable professionnellement pour un avocat, un médecin ou un comptable, là où envoyer des fichiers chez ChatGPT serait une violation du secret professionnel.

Est-ce que ça remplace ChatGPT complètement ?

Non, pas en 2026. Le cloud garde l'avantage pour la recherche web actuelle, l'IA qui contrôle ton ordi, le multimodal complexe et les gros raisonnements. La bonne réponse c'est local + cloud, pas local OU cloud : local pour le sensible et l'offline, cloud pour l'urgent et le très complexe.

Combien de temps prend l'installation ?

Compte 15 minutes la première fois pour le combo Ollama + Open WebUI, dont la moitié à attendre des téléchargements. Si tu veux juste tester Ollama tout seul en mode terminal, 10 minutes top chrono suffisent.

Quel modèle pour quel usage (chat, code, image) ?

Pour le chat général : Mistral 7B. Pour le raisonnement étape par étape : DeepSeek R1-Distill 7B. Pour le code (avec 32 Go de mémoire) : Codestral 22B. Pour la génération d'image : FLUX.1 schnell avec ComfyUI. Pour la transcription audio : Whisper en local.

Faut-il un Mac ou un PC ?

Les deux marchent. Les Mac avec puce Apple Silicon ont une mémoire unifiée : tes 48 Go entiers servent à l'IA. Sur PC, la mémoire vive et la mémoire vidéo sont séparées, c'est un peu plus technique. Si tu débutes complet, prends Mac : la simplicité d'installation est imbattable.

C'est quoi le RAG ?

Le RAG, c'est la fonction qui te permet de discuter avec tes propres documents. Tu glisses tes PDF, Word ou notes dans Open WebUI, l'outil les découpe et les indexe, puis quand tu poses une question, le modèle répond en se basant sur tes documents et cite les sources exactes. Si l'info n'y est pas, il ne l'invente pas.