Les géants américains gardent l'avantage sur le frontier propriétaire — GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro — mais l'écosystème open-weight est plus mince (Llama, Phi, Nemotron). À regarder de près si tu veux comprendre la frontière.
| Acteur | Modèle | Licence | À quoi ça sert | Prix (input / output) | Contexte |
|---|---|---|---|---|---|
| OpenAI | GPT-5.5LLM | propriétaire | Le modèle le plus puissant d'OpenAI. À prendre quand tu veux la meilleure réponse possible et que le budget passe au second plan. | $5 / $30 /Mtok | 270k |
| GPT-5.4 testéLLM | propriétaire | Le rapport qualité/prix d'OpenAI pour le quotidien : assistant, agent, code basique. | $2.50 / $15 /Mtok | 270k | |
| GPT-5.4-miniLLM | propriétaire | Petit modèle rapide. Pour les workflows à fort volume où chaque centime compte. | $0.75 / $4.50 /Mtok | 270k | |
| GPT-5.3-CodexLLM code | propriétaire | Spécialisé code : il refactore, débogue et écrit des tests. Le bras droit de quelqu'un qui code. | Tarif Codex Enterprise | 270k | |
| GPT-5.3 InstantLLM rapide | propriétaire | Répond en moins d'une seconde, parfait quand ton chatbot a beaucoup de visiteurs. Tu sacrifies un peu de qualité contre la vitesse. | Inclus plan Pro | 270k | |
| GPT-Realtime-2Audio | propriétaire | Conversation vocale temps réel avec interruption. Pour assistants téléphoniques ou compagnons vocaux. | $32 / $64 audio /Mtok | — | |
| GPT-Realtime-TranslateAudio | propriétaire | Traduction simultanée en temps réel. Live d'événements, calls internationaux. | $0.034 / min | — | |
| Whisper-RealtimeSTT | propriétaire | Speech-to-text temps réel. Transcription live, sous-titres automatiques. | $0.017 / min | — | |
| GPT-Image-2Image | propriétaire | Génération + édition image. Plus précis sur le texte que Dall-E 3. | $8 / $30 /Mtok img | — | |
| text-embedding-3-largeEmbedding | propriétaire | Vectorise tes documents pour RAG. La référence quand tu cherches la qualité. | $0.13 /Mtok | 8k | |
| text-embedding-3-smallEmbedding | propriétaire | Embedding low-cost pour RAG à fort volume. 6× moins cher que le large. | $0.02 /Mtok | 8k | |
| Anthropic | Claude Opus 4.7LLM | propriétaire | Le modèle le plus subtil du marché. Pour rédaction longue, raisonnement nuancé, écriture haut de gamme. | $5 / $25 /Mtok | 200k |
| Claude Opus 4.7 FastLLM | propriétaire | Opus 4.7 avec priorité latence. Cher mais tu réponds en quelques secondes. | $30 / $150 /Mtok | 200k+ | |
| Claude Opus 4.6 / 4.5LLM | propriétaire | Versions précédentes d'Opus, encore en service. Comparable à 4.7 sur 95% des usages. | $5 / $25 /Mtok | 200k | |
| Claude Sonnet 4.6 testéLLM | propriétaire | Le meilleur équilibre chez Anthropic. Mon choix par défaut pour CRM, agents et contenus pro. | $3 / $15 /Mtok | 200k (1M β) | |
| Claude Sonnet 4.5LLM | propriétaire | Sonnet stable avant la 4.6. Si tu as un workflow déjà testé dessus, garde-le. | $3 / $15 /Mtok | 200k (1M β) | |
| Claude Haiku 4.5 testéLLM rapide | propriétaire | Petit Claude pour classifications, extractions, tâches simples à fort volume. | $1 / $5 /Mtok | 200k | |
| Gemini 3.5 FlashLLM multimodal | propriétaire | Le plus rapide de Google avec 1M de contexte. Pour traiter des PDF longs ou bases de code entières. | $1.50 / $9 /Mtok | 1M | |
| Gemini 3.1 ProLLM multimodal | propriétaire | Le haut de gamme de Google. Excellent en multimodal natif : image + audio + vidéo dans un seul appel. | $2-4 / $12-18 /Mtok | 1M+ | |
| Gemini 3.1 Flash-LiteLLM multimodal | propriétaire | Mini Gemini, vraiment pas cher. Pour traiter des montagnes de documents sans exploser le budget. | $0.25 / $1.50 /Mtok | 1M | |
| Gemini 3.1 Flash LiveAudio | propriétaire | Conversation audio temps réel chez Google. Concurrent direct de GPT-Realtime. | $0.75-3 / $4.50-12 /Mtok | 1M | |
| Gemini 3.1 Flash Image PreviewImage | propriétaire | Génération d'image intégrée au modèle texte. Pratique pour prompts multimodaux. | $0.50 in / 60$/Mimg out | — | |
| Gemini 3 Pro Image PreviewImage | propriétaire | Génération image haut de gamme. La qualité a rattrapé Midjourney. | $2 in / 120$/Mimg out | — | |
| Gemini 2.5 ProLLM multimodal | propriétaire | Version 2.5 encore très utilisée. 2M de contexte (le plus large du marché). | $1.25-2.50 / $10-15 /Mtok | 2M | |
| Gemini 2.5 Flash testéLLM multimodal | propriétaire | Le couteau suisse pas cher de Google. Lit texte, image, audio et vidéo nativement à $0.30/Mtok. | $0.30 / $2.50 /Mtok | 1M | |
| Gemini 2.5 Flash-LiteLLM multimodal | propriétaire | Encore plus petit que Flash. Pour les jobs batch où le volume écrase le budget. | $0.10 / $0.40 /Mtok | 1M | |
| Nano Banana (Gemini 2.5 Flash Image) testéImage | propriétaire | La référence rapport qualité/prix sur l'édition photo. C'est ce que j'utilise pour Airbnb et personal branding. | $0.039 / image | — | |
| Imagen 4 Fast / Standard / UltraImage | propriétaire | Génération photo réaliste premium. Ultra rivalise avec Midjourney v7. | $0.02 / $0.04 / $0.06 par image | — | |
| Veo 3.1 Standard / Fast / LiteVidéo | propriétaire | Le concurrent direct de Sora chez Google. Standard monte jusqu'à 4K. | $0.05 → $0.60 / s selon res. | — | |
| Veo 2Vidéo | propriétaire | Version précédente, toujours dispo. 720p à $0.35/s. | $0.35 / s | — | |
| Lyria 3Audio musique | propriétaire | Génération musicale Google. Concurrent direct de Suno mais intégré API Gemini. | Par requête (preview) | — | |
| Gemma 4LLM | open-weight | Les modèles ouverts de Google. Gratuits à self-host, performants pour leur taille. | Gratuit poids | — | |
| xAI | Grok 4.3LLM | propriétaire | Le modèle haut de gamme de xAI (Elon Musk). Forces : humour, accès X en temps réel, raisonnement scientifique. | $1.25 / $2.50 /Mtok | 1M |
| Grok Build 0.1LLM code | propriétaire | Variant code de Grok. Encore en preview. | Preview | 1M | |
| Grok Voice TTSAudio | propriétaire | Voix de Grok. Caractère, accent custom, intégration X Spaces. | $15 / Mchars TTS | — | |
| Grok Imagine (image)Image | propriétaire | Génération image xAI. Style un peu plus permissif que les autres. | $0.02 / image | — | |
| Grok Imagine (vidéo)Vidéo | propriétaire | Vidéo IA chez xAI. Tarif agressif vs Runway/Pika. | $0.05 / s 720p | — | |
| Meta | Llama 4 MaverickLLM multimodal | open-weight | Open-weight phare de Meta. Contexte 10M : il avale l'équivalent d'un livre de 5 000 pages d'un seul appel. | Gratuit poids · $0.19-0.49 hosted | 10M |
| Llama 4 ScoutLLM multimodal | open-weight | Llama 4 plus petit. Même contexte 10M, plus rapide à servir. | Gratuit poids | 10M | |
| Llama 3.3 70BLLM | open-weight | Le classique stable. Encore beaucoup déployé en prod. | Gratuit poids | 128k | |
| Llama 3.2 (1B / 3B / 11B / 90B)LLM (+vision sur 11B/90B) | open-weight | La gamme complète Llama 3.2. Le 1B et 3B tournent sur smartphone. | Gratuit poids | 128k | |
| Llama 3.1 (8B / 70B / 405B)LLM | open-weight | Tier-1 historique du monde open. 405B reste le plus gros modèle Llama ouvert. | Gratuit poids | 128k | |
| Microsoft | Phi-4 / mini / multimodalLLM | open-weight | Les petits modèles MIT de Microsoft. Excellents en raisonnement pour leur taille. | Gratuit poids · Azure | 128k |
| NVIDIA | Nemotron Nano 9B v2 / Super 49BLLM | open-weight | Modèles NVIDIA optimisés pour leurs GPU. Tarifs serrés via NIM enterprise. | Gratuit poids · $4500/GPU/an | 128k |
| Databricks | DBRX 132BLLM (MoE) | open-weight | MoE open de Databricks. Au-dessus de Llama 3 70B sur benchmarks code. | $0.75 / $2.25 /Mtok Mosaic | 32k |
| Runway | Gen-4.5 / Gen-4 / Turbo / Gen-3Vidéo | propriétaire | Les modèles vidéo Runway. Gen-4.5 = qualité film, Turbo = vitesse créative. | $12/mois (625 crédits) | — |
| Aleph / Act-Two / GWM-1Vidéo édition | propriétaire | Outils Runway pour éditer une vidéo existante (relight, perf capture, world model). | Inclus crédits | — | |
| Luma | Ray3.14 / Ray3.14 HDRVidéo | propriétaire | Vidéo IA Luma. Très bon en mouvement de caméra cinéma. | $30 → $300 / mois | — |
| Pika | Pika 2.5 + 7 variantesVidéo | propriétaire | L'application vidéo IA grand public. Spécialités : effets, swaps, transitions. | $8 / $28 / $76 par mois | — |
| ElevenLabs (UK/US) | Eleven v3 / Music v1 / SFX v2 / Scribe testéAudio | propriétaire | Référence TTS multilingue. v3 fait du multi-speaker, Music compose, SFX génère des bruitages. | ~$0.17-0.36 / min | — |
| Suno | Suno v4.5 / v5Audio musique | propriétaire | Génération musicale grand public. Chanson complète paroles+voix+instru en 1 prompt. | $10 / mois Pro (≈500 morceaux) | — |