← Retour au glossaire A-Z
Modèle · Meta · 2026

Llama 4

Llama 4, c'est la famille de modèles open-weight de Meta sortie début 2026. Téléchargeable gratuitement, hébergeable sur tes propres serveurs, contexte jusqu'à 10 millions de tokens. Pas le plus intelligent du marché, mais le plus libre.

Modèle Lecture 5 min Mis à jour le 2026-05-25
— Ce que c'est

Llama 4, en clair

Meta a une stratégie différente d'OpenAI et Anthropic : ils publient leurs modèles en "open-weight", c'est-à-dire qu'ils mettent les poids à télécharger gratuitement. N'importe qui peut récupérer le modèle, le faire tourner sur ses serveurs, le modifier.

La famille Llama 4 sortie en 2025-2026 comprend plusieurs tailles : Scout (petit, rapide), Maverick (moyen, généraliste), Behemoth (gros, raisonnement). La spécificité technique : contexte de 10 millions de tokens, du jamais vu sur du grand public.

Attention au mot "open" : les poids sont gratuits, mais la licence Meta n'est pas totalement libre. Au-delà de 700 millions d'utilisateurs actifs, il faut une licence commerciale. Ça concerne 0,01% des entreprises, mais c'est important à savoir.

À quoi ça me sert

  • Données sensibles : héberger Llama 4 sur mes propres serveurs garantit que mes données ne partent pas chez OpenAI ou Anthropic. Avocat, médecin, comptable — c'est un argument.
  • Volume sans facture : une fois la machine payée (~5 à 50 €/mois en cloud), je peux tourner des milliers de requêtes par jour sans surprise.
  • Affiner sur mes données : fine-tuner Llama 4 sur mes propres documents pour qu'il connaisse mon métier en profondeur. Impossible avec GPT ou Claude.
  • Contexte géant : 10M tokens, ça veut dire que je peux lui donner une bibliothèque entière en une fois.
  • Apprendre comment ça marche : étudier les poids d'un vrai modèle, comprendre ce qu'il fait à l'intérieur.

Comment ça se compare

vs Claude Sonnet 4.6 / GPT-5.5 : Llama 4 est légèrement en dessous en intelligence pure, mais gratuit en poids et hébergeable maison. Choisir Llama quand la souveraineté ou le volume prime, Claude/GPT quand la qualité absolue prime.

vs DeepSeek V3.2 : DeepSeek est aussi open-weight et souvent plus performant en benchmarks. Llama a l'avantage d'un écosystème (Hugging Face, llama.cpp) plus mature et d'une licence plus claire pour le commercial.

vs Mistral Large 3 : Mistral est sous licence Apache 2.0 (vraiment libre), Llama sous licence Meta (libre jusqu'à 700M utilisateurs). Mistral est plus pur, Llama plus performant.

Combien ça coûte

Tarifs au 25 mai 2026 :

  • Poids du modèle : gratuit sur huggingface.co/meta-llama
  • Hébergement chez un fournisseur (Groq, Together, Fireworks, Lambda) : Llama 4 Maverick à 0,19-0,49 $ / million de tokens en input/output combinés
  • Auto-hébergement : un GPU H100 coûte ~2-3 €/heure en cloud, plus rentable que les API à partir de ~1M tokens/jour

Mon avis

Je ne suis pas dev, donc je ne fais pas tourner Llama 4 sur mes propres serveurs. Mais je l'utilise via Groq quand je veux des réponses ultra rapides à 5× moins cher que Claude.

Ce que j'aime : le contexte 10M qui ridiculise tout le monde, l'écosystème open-source autour, la sérénité de savoir que je peux toujours basculer en local si Meta change la licence.

Ce qui m'agace : la qualité en français reste en dessous de Sonnet ou GPT-5.5, surtout pour des nuances de ton ou de l'écriture longue.

Questions rapides

Llama 4 est-il vraiment open-source ?

Open-weight, pas open-source au sens strict. Licence Meta avec restriction au-delà de 700M utilisateurs actifs.

Comment l'essayer sans installer ?

Via Groq, Together AI, ou meta.ai dans Messenger/WhatsApp.

Llama 4 lit-il les images ?

Oui, multimodal sur la majorité des tailles.

Vérifié le 2026-05-25 · prochaine relecture 2026-11-25

Prix vérifiés sur Together AI et Groq. Usage personnel : tests ponctuels via Groq pour la vitesse, pas mon modèle principal.

Tu veux continuer dans l'ordre ?

Reviens au glossaire complet, cherche un mot, puis ouvre seulement les pages qui méritent plus qu'une définition courte.

Ouvrir le glossaire IA