Atlas mondial · 156 modèles · vérifié 21 mai 2026

Qui fait quoi,
dans quel pays.

Je ne les ai pas tous testés. La plupart, je les ai juste regardés passer pour comprendre le paysage. Je te partage le résumé que j'aurais aimé recevoir : pour chaque modèle, à quoi il sert, sa licence et son prix. USA, Europe et Chine en trois tableaux. Les chiffres sont en USD per million tokens (input/output) sauf indication contraire.

💡 La pastille testé repère les 11 modèles que j'utilise vraiment dans mes projets (CRM, podcast, photos, scripts). Le reste, c'est de la veille : utile à connaître, pas à industrialiser sans tester. Pour les sigles techniques (MoE, RAG, embedding, STT/TTS, open-weight), va voir le lexique IA.

← Revenir au guide "lequel choisir ?"
Catalogue mondial · 156 modèles · vérifié 20 mai 2026

Qui fait quoi, dans quel pays.

Le catalogue par pays. Pour chaque modèle : à quoi il sert vraiment, sa licence et son prix. Les chiffres en USD per million tokens (input/output) sauf indication contraire.

USA · 51 modèles

Les géants américains gardent l'avantage sur le frontier propriétaire — GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro — mais l'écosystème open-weight est plus mince (Llama, Phi, Nemotron). À regarder de près si tu veux comprendre la fronti­ère.

Acteur Modèle Licence À quoi ça sert Prix (input / output) Contexte
OpenAI GPT-5.5LLM propriétaire Le modèle le plus puissant d'OpenAI. À prendre quand tu veux la meilleure réponse possible et que le budget passe au second plan. $5 / $30 /Mtok 270k
GPT-5.4 testéLLM propriétaire Le rapport qualité/prix d'OpenAI pour le quotidien : assistant, agent, code basique. $2.50 / $15 /Mtok 270k
GPT-5.4-miniLLM propriétaire Petit modèle rapide. Pour les workflows à fort volume où chaque centime compte. $0.75 / $4.50 /Mtok 270k
GPT-5.3-CodexLLM code propriétaire Spécialisé code : il refactore, débogue et écrit des tests. Le bras droit de quelqu'un qui code. Tarif Codex Enterprise 270k
GPT-5.3 InstantLLM rapide propriétaire Répond en moins d'une seconde, parfait quand ton chatbot a beaucoup de visiteurs. Tu sacrifies un peu de qualité contre la vitesse. Inclus plan Pro 270k
GPT-Realtime-2Audio propriétaire Conversation vocale temps réel avec interruption. Pour assistants téléphoniques ou compagnons vocaux. $32 / $64 audio /Mtok
GPT-Realtime-TranslateAudio propriétaire Traduction simultanée en temps réel. Live d'événements, calls internationaux. $0.034 / min
Whisper-RealtimeSTT propriétaire Speech-to-text temps réel. Transcription live, sous-titres automatiques. $0.017 / min
GPT-Image-2Image propriétaire Génération + édition image. Plus précis sur le texte que Dall-E 3. $8 / $30 /Mtok img
text-embedding-3-largeEmbedding propriétaire Vectorise tes documents pour RAG. La référence quand tu cherches la qualité. $0.13 /Mtok 8k
text-embedding-3-smallEmbedding propriétaire Embedding low-cost pour RAG à fort volume. 6× moins cher que le large. $0.02 /Mtok 8k
Anthropic Claude Opus 4.7LLM propriétaire Le modèle le plus subtil du marché. Pour rédaction longue, raisonnement nuancé, écriture haut de gamme. $5 / $25 /Mtok 200k
Claude Opus 4.7 FastLLM propriétaire Opus 4.7 avec priorité latence. Cher mais tu réponds en quelques secondes. $30 / $150 /Mtok 200k+
Claude Opus 4.6 / 4.5LLM propriétaire Versions précédentes d'Opus, encore en service. Comparable à 4.7 sur 95% des usages. $5 / $25 /Mtok 200k
Claude Sonnet 4.6 testéLLM propriétaire Le meilleur équilibre chez Anthropic. Mon choix par défaut pour CRM, agents et contenus pro. $3 / $15 /Mtok 200k (1M β)
Claude Sonnet 4.5LLM propriétaire Sonnet stable avant la 4.6. Si tu as un workflow déjà testé dessus, garde-le. $3 / $15 /Mtok 200k (1M β)
Claude Haiku 4.5 testéLLM rapide propriétaire Petit Claude pour classifications, extractions, tâches simples à fort volume. $1 / $5 /Mtok 200k
Google Gemini 3.5 FlashLLM multimodal propriétaire Le plus rapide de Google avec 1M de contexte. Pour traiter des PDF longs ou bases de code entières. $1.50 / $9 /Mtok 1M
Gemini 3.1 ProLLM multimodal propriétaire Le haut de gamme de Google. Excellent en multimodal natif : image + audio + vidéo dans un seul appel. $2-4 / $12-18 /Mtok 1M+
Gemini 3.1 Flash-LiteLLM multimodal propriétaire Mini Gemini, vraiment pas cher. Pour traiter des montagnes de documents sans exploser le budget. $0.25 / $1.50 /Mtok 1M
Gemini 3.1 Flash LiveAudio propriétaire Conversation audio temps réel chez Google. Concurrent direct de GPT-Realtime. $0.75-3 / $4.50-12 /Mtok 1M
Gemini 3.1 Flash Image PreviewImage propriétaire Génération d'image intégrée au modèle texte. Pratique pour prompts multimodaux. $0.50 in / 60$/Mimg out
Gemini 3 Pro Image PreviewImage propriétaire Génération image haut de gamme. La qualité a rattrapé Midjourney. $2 in / 120$/Mimg out
Gemini 2.5 ProLLM multimodal propriétaire Version 2.5 encore très utilisée. 2M de contexte (le plus large du marché). $1.25-2.50 / $10-15 /Mtok 2M
Gemini 2.5 Flash testéLLM multimodal propriétaire Le couteau suisse pas cher de Google. Lit texte, image, audio et vidéo nativement à $0.30/Mtok. $0.30 / $2.50 /Mtok 1M
Gemini 2.5 Flash-LiteLLM multimodal propriétaire Encore plus petit que Flash. Pour les jobs batch où le volume écrase le budget. $0.10 / $0.40 /Mtok 1M
Nano Banana (Gemini 2.5 Flash Image) testéImage propriétaire La référence rapport qualité/prix sur l'édition photo. C'est ce que j'utilise pour Airbnb et personal branding. $0.039 / image
Imagen 4 Fast / Standard / UltraImage propriétaire Génération photo réaliste premium. Ultra rivalise avec Midjourney v7. $0.02 / $0.04 / $0.06 par image
Veo 3.1 Standard / Fast / LiteVidéo propriétaire Le concurrent direct de Sora chez Google. Standard monte jusqu'à 4K. $0.05 → $0.60 / s selon res.
Veo 2Vidéo propriétaire Version précédente, toujours dispo. 720p à $0.35/s. $0.35 / s
Lyria 3Audio musique propriétaire Génération musicale Google. Concurrent direct de Suno mais intégré API Gemini. Par requête (preview)
Gemma 4LLM open-weight Les modèles ouverts de Google. Gratuits à self-host, performants pour leur taille. Gratuit poids
xAI Grok 4.3LLM propriétaire Le modèle haut de gamme de xAI (Elon Musk). Forces : humour, accès X en temps réel, raisonnement scientifique. $1.25 / $2.50 /Mtok 1M
Grok Build 0.1LLM code propriétaire Variant code de Grok. Encore en preview. Preview 1M
Grok Voice TTSAudio propriétaire Voix de Grok. Caractère, accent custom, intégration X Spaces. $15 / Mchars TTS
Grok Imagine (image)Image propriétaire Génération image xAI. Style un peu plus permissif que les autres. $0.02 / image
Grok Imagine (vidéo)Vidéo propriétaire Vidéo IA chez xAI. Tarif agressif vs Runway/Pika. $0.05 / s 720p
Meta Llama 4 MaverickLLM multimodal open-weight Open-weight phare de Meta. Contexte 10M : il avale l'équivalent d'un livre de 5 000 pages d'un seul appel. Gratuit poids · $0.19-0.49 hosted 10M
Llama 4 ScoutLLM multimodal open-weight Llama 4 plus petit. Même contexte 10M, plus rapide à servir. Gratuit poids 10M
Llama 3.3 70BLLM open-weight Le classique stable. Encore beaucoup déployé en prod. Gratuit poids 128k
Llama 3.2 (1B / 3B / 11B / 90B)LLM (+vision sur 11B/90B) open-weight La gamme complète Llama 3.2. Le 1B et 3B tournent sur smartphone. Gratuit poids 128k
Llama 3.1 (8B / 70B / 405B)LLM open-weight Tier-1 historique du monde open. 405B reste le plus gros modèle Llama ouvert. Gratuit poids 128k
Microsoft Phi-4 / mini / multimodalLLM open-weight Les petits modèles MIT de Microsoft. Excellents en raisonnement pour leur taille. Gratuit poids · Azure 128k
NVIDIA Nemotron Nano 9B v2 / Super 49BLLM open-weight Modèles NVIDIA optimisés pour leurs GPU. Tarifs serrés via NIM enterprise. Gratuit poids · $4500/GPU/an 128k
Databricks DBRX 132BLLM (MoE) open-weight MoE open de Databricks. Au-dessus de Llama 3 70B sur benchmarks code. $0.75 / $2.25 /Mtok Mosaic 32k
Runway Gen-4.5 / Gen-4 / Turbo / Gen-3Vidéo propriétaire Les modèles vidéo Runway. Gen-4.5 = qualité film, Turbo = vitesse créative. $12/mois (625 crédits)
Aleph / Act-Two / GWM-1Vidéo édition propriétaire Outils Runway pour éditer une vidéo existante (relight, perf capture, world model). Inclus crédits
Luma Ray3.14 / Ray3.14 HDRVidéo propriétaire Vidéo IA Luma. Très bon en mouvement de caméra cinéma. $30 → $300 / mois
Pika Pika 2.5 + 7 variantesVidéo propriétaire L'application vidéo IA grand public. Spécialités : effets, swaps, transitions. $8 / $28 / $76 par mois
ElevenLabs (UK/US) Eleven v3 / Music v1 / SFX v2 / Scribe testéAudio propriétaire Référence TTS multilingue. v3 fait du multi-speaker, Music compose, SFX génère des bruitages. ~$0.17-0.36 / min
Suno Suno v4.5 / v5Audio musique propriétaire Génération musicale grand public. Chanson complète paroles+voix+instru en 1 prompt. $10 / mois Pro (≈500 morceaux)
Europe + UK · 48 modèles

L'Europe est la région la plus ouverte en ratio : Mistral en Apache 2.0, FLUX.2 klein, Kyutai en CC-BY, Apertus, Bielik, Salamandra, Lucie. Si tu veux self-host des modèles libres légalement utilisables, c'est ici.

Acteur Modèle Licence À quoi ça sert Prix (input / output) Contexte
🇫🇷 Mistral AI Mistral Large 3LLM MoE 41B/675B open-source Le modèle haut de gamme européen, en Apache 2.0. Tu peux le self-host, le fine-tune, le revendre. $0.50 / $1.50 /Mtok 262k
Mistral Medium 3.5Vision-LLM propriétaire Multimodal de Mistral. Lecture d'images + chat en français natif. $1.50 / $7.50 /Mtok 262k
Mistral Medium 3.1Vision-LLM propriétaire Version 3.1 stable. Choix sûr pour passer en prod. $0.40 / $2 /Mtok 131k
Mistral Small 4 testéLLM hybride open-weight Le rapport perf/prix de Mistral. Hybride pour basculer entre rapide et réfléchi. $0.15 / $0.60 /Mtok 262k
Magistral Medium 1.2LLM raisonnement propriétaire Le modèle de raisonnement de Mistral. Pour problèmes math/logique nécessitant des étapes. $2 / $5 /Mtok 128k
Ministral 3 (14B / 8B / 3B)Vision-LLM edge open-weight Modèles edge de Mistral. Le 3B tient sur Raspberry Pi 5. $0.10-0.20 /Mtok 131-262k
Codestral 25.08LLM code propriétaire Spécialisé code de Mistral. Bon en complétion, refactoring, gen tests. $0.30 / $0.90 /Mtok 256k
Devstral 2Code agentique open-weight Mistral pour agents code (workflows multi-étapes). License MIT modifiée. $0.40 / $2 /Mtok 262k
Codestral Embed / Mistral EmbedEmbedding propriétaire Embeddings de Mistral. Codestral Embed comprend mieux le code source. $0.10-0.15 /Mtok 8k
Voxtral Small 24B testéAudio-LLM open-source Audio-LLM Apache 2.0 de Mistral. Comprend la parole et répond en texte ou audio. $0.10 + $100/Ms audio 32k
Voxtral Mini Transcribe 2STT propriétaire Speech-to-text de Mistral. Latence faible, support français natif. $0.003 / min
Voxtral Mini TTSTTS open-weight TTS open-weight de Mistral. Voix française propre, self-host possible. $16 / Mchars
Mistral OCR 3 testéOCR propriétaire Extraction de texte depuis PDF, photos de documents, captures. Pratique pour digitaliser des archives. $1 / 1000 pages
Moderation 2Modération propriétaire Classification de contenu inapproprié. À mettre devant ton chatbot grand public. $0.10 /Mtok 128k
Mistral Nemo 12BLLM open-source Mistral × NVIDIA Apache 2.0. Très bon rapport qualité/taille en 12B. $0.02 / $0.03 /Mtok 131k
🇫🇷 Kyutai MoshiSpeech-native open-source Modèle dialogue voix-à-voix en temps réel. Tu parles, il répond, sans passer par du texte. Self-host CC-BY streaming
Hibiki-ZeroTraduction voix open-source Traduction parlée en temps réel. Sous licence CC-BY donc gratuit en usage perso et commercial. Self-host CC-BY streaming
MoshiVisVision-speech open-source Moshi + vision. Tu lui montres une image, il décrit oralement. Self-host CC-BY streaming
Pocket TTS / Mimi / Helium 1Audio + LLM open-source Stack audio Kyutai. Pocket TTS = synthèse mobile, Mimi = codec audio, Helium = LLM 2B. Self-host CC-BY
🇫🇷 H Company Holo3Vision-LLM computer-use propriétaire Agent qui contrôle ton ordinateur (clic, scroll, formulaires). Concurrent de Claude Computer Use. API privée sur devis
Holotron 3 NanoLLM open-weight Petit Holotron open. Post-train de Nemotron NVIDIA. Self-host
🇫🇷 LightOn Paradigm RAGLLM + RAG propriétaire Stack RAG on-premise pour grandes entreprises. Tes données ne sortent pas du serveur. Sur devis on-prem
🇫🇷 LinAGORA / OpenLLM-France Lucie-7B InstructLLM open-source LLM français Apache 2.0, entraîné sur données françaises et européennes. Self-host 32k
Claire-7BLLM dialogue FR open-source Modèle de conversation FR. CC-BY-NC-SA (pas d'usage commercial). Self-host 8k
🇩🇪 Aleph Alpha Pharia-1-LLM-7B-controlLLM open-weight Modèle de la souveraineté allemande. Pour clients publics européens. Self-host (non-comm.) 8k
SLLMs enterpriseLLM custom propriétaire Modèles taillés sur mesure pour grandes entreprises et secteur public. Sur devis
🇩🇪 Black Forest Labs FLUX.2 [max / pro / flex]Image propriétaire L'état de l'art en image, équipe ex-Stability. Max = qualité film. Flex = équilibre. $0.03-0.07 / Mpx
FLUX.2 [klein] 9B / 4B testéImage open-source Versions ouvertes de FLUX.2. Le 4B est Apache 2.0 pur, self-host facile. $0.014-0.015 / Mpx
FLUX.1 Kontext [max / pro]Édition image propriétaire Édition d'image avec un prompt (style ChatGPT pour images). Le plus précis du marché. $0.04-0.08 / image
FLUX 1.1 [pro] Ultra / ProImage propriétaire FLUX 1.1 encore en service. Ultra = 4K natif. $0.04-0.06 / image
FLUX.1 [dev]Image open-weight FLUX.1 dev. Réservé à l'expérimentation, pas à un usage commercial. Très utilisé dans les labos. $0.025 / image
FLUX OutpaintingImage édition propriétaire Étend une image au-delà de ses bords originaux. Pratique pour ratios différents. $0.10 / Mpx
🇩🇪 DeepL Translator APITraduction propriétaire Traduction tier-1 mondiale. Plus précis que Google Translate sur EN↔FR/DE. €20-22 / Mchars
DeepL Voice STTAudio propriétaire Speech-to-text DeepL. Pour transcrire des calls multilingues. €3.27 / heure
🇪🇸 BSC Salamandra-2B / 7B / 40BLLM open-source Modèle Apache 2.0 du Barcelona Supercomputing Center. Fort sur catalan/espagnol/portugais. Self-host 8k
🇨🇭 Swiss AI (ETH/EPFL) Apertus-8B / 70B InstructLLM open-source Le modèle Apache 2.0 suisse. Conçu pour transparence totale (data + recette publiques). Self-host
🇵🇱 SpeakLeash Bielik 7B / 11B / GuardLLM polonais open-source Modèles Apache 2.0 spécialisés polonais. Bielik Guard fait de la modération. Self-host
🇳🇱 Bria.ai Fibo / Fibo Lite / Fibo EditImage propriétaire Modèles image entraînés sur data 100% licenced. Conformes pour pubs/médias. $0.02-0.03 / image
Video background toolsVidéo propriétaire Suppression background, segmentation, effets vidéo. API pour outils créatifs. $0.01-0.02 / s
🇬🇧 ElevenLabs Eleven v3 / Multilingual v2 / Flash v2.5TTS propriétaire La référence mondiale TTS. v3 fait dialogue multi-personnages, Flash optimise la latence. $0.15-0.30 / 1k chars
Scribe v2 / RealtimeSTT propriétaire STT ElevenLabs. Realtime pour live, Scribe pour transcription async. $0.40 / heure
Music v1 / Sound Effects v2Audio propriétaire Musique générée + bruitages. Plus modulables que Suno (durée, instruments). Crédits à l'usage
🇬🇧 Stability AI SD 3.5 Large / Turbo / Medium / FlashImage open-weight Les Stable Diffusion encore largement déployés. Turbo = vitesse, Flash = mobile. $0.025-0.065 / image
Stable Image Ultra / CoreImage propriétaire Modèles closed haut de gamme Stability. Ultra rivalise avec Imagen 4. $0.03 / $0.08 par image
Stable Audio 2.5 / 3.0Audio musique propriétaire Génération musicale Stability. 3.0 va jusqu'à 6 minutes en une passe. $0.20-0.26 / clip
Stable Fast 3D / SPAR3D3D open-weight Génération de mesh 3D depuis 1 image. Pour jeux, AR, prototypage. $0.04-0.10 / scène
🇬🇧 Synthesia Express-2 Avatar VideoVidéo avatar propriétaire Avatars vidéo qui parlent. Pour formations internes, e-learning, vidéos produit. €12+ / mois
🇬🇧 Wayve AI Driver (GAIA)Vision driving propriétaire Modèle de conduite autonome de bout en bout. Vendu uniquement aux constructeurs auto. Concurrent direct de Tesla. B2B OEM
Chine · 57 modèles

La Chine pousse une stratégie de prix cassés (DeepSeek, Doubao Flash) et d'open-weight massif (43 modèles sur 75). Attention : « open-weight » côté chinois n'est pas Apache 2.0, lis la licence avant d'industrialiser. Domine la vidéo IA (Kling, Hailuo, Seedance).

Acteur Modèle Licence À quoi ça sert Prix (input / output) Contexte
DeepSeek DeepSeek-V4-FlashLLM open-weight Le moins cher du marché si tu réutilises ton prompt (cache hit à $0.0028/Mtok). Pour bots à haute fréquence. $0.14 / $0.28 /Mtok 1M
DeepSeek-V4-Pro testéLLM open-weight Le frontier open-weight le moins cher du monde. Concurrent direct de Claude Sonnet à 10× moins cher. $0.435 / $0.87 /Mtok (promo) 1M
Alibaba Qwen3.6-Max-PreviewLLM propriétaire Premier flagship Alibaba en closed-weight (rupture historique). Frontier comparable à GPT-5. $1.30 / $7.80 /Mtok 260k
Qwen3.6-PlusLLM propriétaire Le quotidien Alibaba. 1M de contexte à $0.32, imbattable. $0.325 / $1.95 /Mtok 1M
Qwen3.6-FlashLLM propriétaire Variant rapide. Pour assistant à fort traffic. $0.188 / $1.13 /Mtok 1M
Qwen3.5-Omni-PlusOmni open-weight Un seul modèle pour texte + audio + image + vidéo. Pour assistants multimodaux complets. $0.30 / $1.80 /Mtok 256k
Qwen3.5-397B-A17BVision-LLM open-weight Le gros Qwen ouvert. 397B paramètres, 17B actifs (modèle qui n'allume qu'une partie de son cerveau par question). À faire tourner sur tes propres serveurs. Self-host 256k
Qwen3-Coder Plus / Flash / NextLLM code open-weight Les spécialisés code de Qwen. Forts sur Python, JS, Java. $0.11-0.65 / Mtok 262k-1M
Qwen3-ASR-FlashSTT propriétaire Speech-to-text Alibaba. Excellent en chinois et anglais. $0.30 / heure audio
Qwen3-VL-EmbeddingEmbedding multimodal open-weight Vectorise image+texte ensemble. Pour recherche multimodale (catalogue produit). $0.07 /Mtok 32k
text-embedding-v4 / vision-plus / rerankEmbedding/Rerank propriétaire Embeddings classiques + rerank. Rerank affine les résultats RAG. $0.04-0.10 /Mtok 8-32k
Qwen-Image-2.0-ProImage propriétaire Génération image Alibaba. Forte sur texte dans l'image. $0.075 / image
Wan2.7-Image-Pro / Wan2.7 videoImage / Vidéo open-weight Image et vidéo open-weight Alibaba. Self-host sans restriction commerciale. $0.06 img · $0.10-0.15 /s
HappyHorse-1.0Vidéo propriétaire Modèle vidéo dernier-né Alibaba. Pour text-to-video et image-to-video. $0.14-0.28 / s
CosyVoice v3.5+ / Fun-CosyVoice3.5TTS open-weight TTS open Alibaba. Clonage de voix à partir de 3 secondes d'échantillon. $7.15 / M UTF-8 bytes
Fun-ASR realtimeSTT open-weight Transcription temps réel open. Pour sous-titres live, call centers. $0.20 / heure
Fun-Music-v1Musique propriétaire Génération musique Alibaba. Concurrent récent de Suno. n.d.
Baidu Ernie 5.1LLM propriétaire Le modèle haut de gamme de Baidu. Comparable à GPT-4o, fort en chinois. $0.59 / $2.65 /Mtok 128k
Ernie 5.0LLM propriétaire Version précédente. Encore très utilisée en entreprise chinoise. $0.80 / $3.20 /Mtok 128k
Ernie X1LLM raisonnement propriétaire Le modèle reasoning de Baidu. Pour math, science, problèmes multi-étapes. $0.28 / $1.10 /Mtok 128k
Ernie 4.5LLM open-weight Le seul Ernie open-weight. Bonne option pour self-host modèle chinois. $0.55 / $2.20 /Mtok 128k
ByteDance Doubao Seed 2.0 ProVision-LLM propriétaire Le modèle vision haut de gamme de ByteDance (maison-mère TikTok). Excellent en édition image guidée. $0.47 / $2.37 /Mtok 256k
Doubao Seed 2.0 Lite / MiniLLM propriétaire Versions économiques pour traitement à grande échelle. $0.07-0.14 / $0.28-0.71 256k
Doubao Seed 2.0 CodeLLM code propriétaire Doubao spécialisé code. Fort sur frameworks chinois et JS. ~$0.30 / ~$1.50 /Mtok 256k
Doubao Seed 1.6 FlashLLM propriétaire Le moins cher non-DeepSeek du marché. $0.022/Mtok input. $0.022 / $0.219 /Mtok 256k
Doubao Seed 1.6 VisionVision-LLM propriétaire Vision version 1.6. Bon rapport perf/prix. $0.11-0.34 / $1.13-3.39 256k
Seedream 5.0Image propriétaire Génération image ByteDance. Très bon en illustrations style anime/manga. ~$0.03 / image
Seedance 2.0Vidéo propriétaire Vidéo IA ByteDance. Spécialité : mouvement, danse, sport. $0.14 / s
Tencent Hunyuan HY3 PreviewLLM propriétaire Le modèle haut de gamme de Tencent. Très compétitif sur le rapport prix/qualité. $0.066 / $0.260 /Mtok 256k
Hunyuan Turbo SReasoning rapide propriétaire Reasoning à $0.11/Mtok. Concurrent direct DeepSeek pour le raisonnement à bas prix. $0.11 / $0.28 /Mtok 256k
Hunyuan HY2.0 Instruct / ThinkLLM propriétaire Version 2.0 stable. Augmenté de +460% en mars (rationalisation post-price-war). $0.625 / $1.546 /Mtok 256k
Hunyuan Image 3.0 (80B)Image open-weight Image open-weight Tencent 80B. Très bon en photoréalisme. $0.05-0.10 / image
Hunyuan Video 1.5Vidéo open-weight Vidéo open-weight Tencent. Self-host possible si tu as les GPU. ~$0.40 / clip via fal
Moonshot Kimi K2.6LLM/coder open-weight Le modèle haut de gamme de Moonshot. Réputé pour son coding et son contexte long bien géré. $0.73 / $3.49 /Mtok 262k
Zhipu GLM-5LLM open-weight GLM dernier-né. Le challenger sérieux à DeepSeek en open-weight. $0.60 / $1.92 /Mtok 202k
GLM-5.1LLM open-weight Update mineure de GLM-5. Plus performant sur math/code. $1 / $3.20 /Mtok 202k
GLM-4.6 / 4.5-Air / 4.7-FlashLLM open-weight La gamme GLM 4.x encore active. 4.7-Flash est gratuit pour usage registered. Gratuit → $0.43 /Mtok 128-203k
CogVideoX 1.5 / CogVLM2-VideoVidéo open-weight Vidéo open-weight Zhipu. Pour expérimentation R&D. Self-host
MiniMax MiniMax-M2.7 / M2.5 / M2LLM open-weight Open-weight MiniMax. Très bon rapport contexte/prix avec 197k de fenêtre. $0.15-0.279 / $1-1.20 197k
Hailuo 2.3 Standard / ProVidéo propriétaire Hailuo est l'app vidéo grand public MiniMax. Pro = 1080p, fluide. $0.047-0.082 / s
MusicMusique propriétaire Génération musicale MiniMax. Encore moins connu que Suno en occident. n.d.
StepFun Step-3.5 FlashLLM open-weight StepFun flash. Performant pour son prix bas. $0.10 / $0.30 /Mtok 262k
Step-3LLM open-weight Le modèle haut de gamme de StepFun. Open-weight, bonne perf en multilingue. $0.57 / $1.42 /Mtok 256k
Step-Audio R1.1 RealtimeAudio propriétaire Audio temps réel speech-to-speech. Concurrent GPT-Realtime en Chine. $1.43 / $15 /Mtok
Step-Audio 2.5 TTSTTS propriétaire TTS StepFun. Voix mandarin parmi les meilleures. $0.08 / min
Step-Video-T2VVidéo open-weight Text-to-video open StepFun. Pour R&D ou self-host massif. Self-host
01.AI Yi-LightningLLM propriétaire Le modèle commercial de Kai-Fu Lee. Cher pour ce qu'il offre vs concurrents chinois. $0.14 / $0.14 /Mtok 16k
Xiaomi MiMo-V2-Pro / Flash / Omni / TTSLLM/Omni/TTS open-weight La famille MiMo de Xiaomi. Pro = 1T params, Omni = multimodal, TTS = synthèse. $0.10-0.40 / $0.40-1.60 self-host 128k-1M
Huawei Pangu 5.5 (718B MoE)LLM propriétaire Le modèle haut de gamme propriétaire de Huawei. Réservé clients entreprise/gouvernement chinois. Sur devis 256k
openPangu Pro MoE 72BLLM open-weight Pangu open-weight 72B. Disponible en self-host. Self-host 128k
iFlytek Spark X2 / X2-FlashLLM propriétaire Modèles d'iFlytek (leader voix en Chine). Forts pour assistants vocaux. $0.014-0.07 / $0.04-0.21 /Mtok 256k
Kuaishou Kling 3.0 / 2.6Vidéo propriétaire Le meilleur générateur vidéo IA en 2026, période. C'est ce que les créateurs occidentaux utilisent en sous-marin. $0.04-0.168 / s
Shengshu Vidu Q3 Pro / TurboVidéo propriétaire Vidu, l'autre top vidéo chinois. Plus rapide que Kling, moins cher. $0.034-0.06 / s
SenseTime SenseNova U1 / MARS 32BVision/Reasoning open-weight Modèles vision-reasoning unifiés. R&D de pointe en multimodal. Self-host 128k
SenseNova V6.5 Omni realtimeOmni propriétaire Omni temps réel commercial. Pour B2B chinois. ¥0.06-0.08 / min
Skywork (Kunlun) Skywork-R1V 3.0Vision-LLM reasoning open-weight Vision reasoning open-weight. Pour R&D academique. Self-host 128k
SkyReels-V4Vidéo + audio open-weight Génère vidéo + bande son d'un coup. Pratique pour shorts complets. $28 / mois
open-source licence OSI (Apache 2.0, MIT, CC-BY...) → libre commercial open-weight poids publics, licence custom souvent restrictive propriétaire API uniquement