🏆 LLM Leaderboard : le classement des meilleurs IA et des meilleurs LLM

Benchmark et comparatif des meilleurs LLM, mis à jour automatiquement chaque jour. Données consolidées, couvrant précision, multimodalité, coût et performance. Faites défiler pour explorer les classements par catégorie. Face à l’explosion des modèles d’IA, choisir le bon LLM devient un casse-tête : GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok 4… Ce classement compare le top 100 des modèles sur des critères objectifs (qualité, vitesse, coût, capacités multimodales) grâce aux benchmarks indépendants d’Artificial Analysis. Les données sont synchronisées automatiquement chaque jour pour garantir un comparatif toujours à jour. Utilisez les filtres ci-dessous pour trouver le modèle adapté à votre usage et budget.

📊 Classements des modèles IA

🧠 Top 100 des meilleurs Llm

Dernière mise à jour: il y a 24 heures
ModèleCréateurQuality IndexSpeed (tok/s)Prix ($/1M)
GPT-5.2 (xhigh)
OpenAI
50.5
112.7 $4.81 Standard
Claude Opus 4.5 (Reasoning)
Anthropic
49.1
59.0 $10.00 Premium
Gemini 3 Pro Preview (high)
Google
47.9
125.5 $4.50 Standard
GPT-5.1 (high)
OpenAI
47.0
106.3 $3.44 Standard
Gemini 3 Flash Preview (Reasoning)
Google
45.9
223.1 $1.13 Budget
GPT-5.2 (medium)
OpenAI
45.3
0.0 $4.81 Standard
GPT-5 (high)
OpenAI
44.1
124.1 $3.44 Standard
GPT-5 Codex (high)
OpenAI
44.0
151.9 $3.44 Standard
Claude Opus 4.5 (Non-reasoning)
Anthropic
42.5
74.8 $10.00 Premium
Claude 4.5 Sonnet (Reasoning)
Anthropic
42.4
67.3 $6.00 Standard
GLM-4.7 (Reasoning)
Z AI
41.7
113.2 $0.94 Budget
GPT-5 (medium)
OpenAI
41.6
119.3 $3.44 Standard
GPT-5.1 Codex (high)
OpenAI
41.5
144.1 $3.44 Standard
Grok 4
xAI
41.3
41.9 $6.00 Standard
DeepSeek V3.2 (Reasoning)
DeepSeek
41.2
28.4 $0.32 Budget
o3
OpenAI
40.9
290.5 $3.50 Standard
o3-pro
OpenAI
40.7
37.1 $35.00 Premium
GPT-5 mini (high)
OpenAI
40.6
70.1 $0.69 Budget
Gemini 3 Pro Preview (low)
Google
40.6
132.8 $4.50 Standard
Kimi K2 Thinking
Kimi
40.3
89.0 $1.08 Budget
MiniMax-M2.1
MiniMax
39.3
70.8 $0.53 Budget
MiMo-V2-Flash (Reasoning)
Xiaomi
39.0
133.7 $0.15 Budget
GPT-5 (low)
OpenAI
38.7
118.5 $3.44 Standard
GPT-5 mini (medium)
OpenAI
38.6
72.3 $0.69 Budget
Claude 4 Sonnet (Reasoning)
Anthropic
38.4
60.9 $6.00 Standard
Grok 4.1 Fast (Reasoning)
xAI
38.2
173.8 $0.28 Budget
GPT-5.1 Codex mini (high)
OpenAI
38.0
126.9 $0.69 Budget
Claude 4.5 Haiku (Reasoning)
Anthropic
36.6
78.3 $2.00 Standard
Claude 4.5 Sonnet (Non-reasoning)
Anthropic
36.6
70.4 $6.00 Standard
KAT-Coder-Pro V1
KwaiKAT
35.9
64.2 $0.00 Budget
MiniMax-M2
MiniMax
35.6
86.8 $0.53 Budget
Nova 2.0 Pro Preview (medium)
Amazon
35.3
131.9 $3.44 Standard
Doubao-Seed-1.8
ByteDance Seed
34.8
0.0 $0.15 Budget
Gemini 3 Flash Preview (Non-reasoning)
Google
34.7
198.1 $1.13 Budget
Grok 4 Fast (Reasoning)
xAI
34.6
151.4 $0.28 Budget
Claude 3.7 Sonnet (Reasoning)
Anthropic
34.4
0.0 $6.00 Standard
Gemini 2.5 Pro
Google
34.1
153.4 $3.44 Standard
DeepSeek V3.2 Speciale
DeepSeek
34.1
0.0 $0.32 Budget
GLM-4.7 (Non-reasoning)
Z AI
33.7
74.2 $0.94 Budget
DeepSeek V3.1 Terminus (Reasoning)
DeepSeek
33.4
0.0 $0.80 Budget
Doubao Seed Code
ByteDance Seed
33.2
0.0 $0.41 Budget
GPT-5.2 (Non-reasoning)
OpenAI
33.1
74.3 $4.81 Standard
gpt-oss-120B (high)
OpenAI
32.9
352.4 $0.26 Budget
o4-mini (high)
OpenAI
32.9
89.9 $1.93 Budget
Claude 4 Sonnet (Non-reasoning)
Anthropic
32.6
71.9 $6.00 Standard
DeepSeek V3.2 Exp (Reasoning)
DeepSeek
32.5
28.6 $0.32 Budget
Qwen3 Max Thinking
Alibaba
32.4
35.0 $2.40 Standard
Grok 3 mini Reasoning (high)
xAI
32.3
174.2 $0.35 Budget
GLM-4.6 (Reasoning)
Z AI
32.2
117.1 $0.96 Budget
Nova 2.0 Pro Preview (low)
Amazon
32.0
136.0 $3.44 Standard
Claude 4.1 Opus (Reasoning)
Anthropic
31.9
46.4 $30.00 Premium
DeepSeek V3.2 (Non-reasoning)
DeepSeek
31.8
28.1 $0.32 Budget
Qwen3 Max
Alibaba
31.0
27.8 $2.40 Standard
Gemini 2.5 Flash Preview (Sep '25) (Reasoning)
Google
30.8
297.0 $0.85 Budget
Claude 4.5 Haiku (Non-reasoning)
Anthropic
30.5
107.9 $2.00 Standard
Claude 3.7 Sonnet (Non-reasoning)
Anthropic
30.5
0.0 $6.00 Standard
Gemini 2.5 Pro Preview (Mar' 25)
Google
30.3
0.0 $3.44 Standard
DeepSeek V3.1 (Reasoning)
DeepSeek
30.2
0.0 $0.86 Budget
Nova 2.0 Lite (medium)
Amazon
29.8
252.2 $0.85 Budget
GLM-4.6 (Non-reasoning)
Z AI
29.8
41.7 $1.00 Budget
Gemini 2.5 Pro Preview (May' 25)
Google
29.5
0.0 $3.44 Standard
Qwen3 235B A22B 2507 (Reasoning)
Alibaba
29.3
71.0 $2.63 Standard
ERNIE 5.0 Thinking Preview
Baidu
28.9
0.0 $1.47 Budget
Qwen3 VL 32B (Reasoning)
Alibaba
28.6
51.1 $2.63 Standard
Seed-OSS-36B-Instruct
ByteDance Seed
28.4
31.5 $0.30 Budget
Apriel-v1.5-15B-Thinker
ServiceNow
28.3
144.8 $0.00 Budget
DeepSeek V3.2 Exp (Non-reasoning)
DeepSeek
28.1
28.9 $0.32 Budget
DeepSeek V3.1 Terminus (Non-reasoning)
DeepSeek
27.9
0.0 $0.80 Budget
Nova 2.0 Omni (medium)
Amazon
27.9
0.0 $0.85 Budget
Kimi K2 0905
Kimi
27.7
60.2 $1.20 Budget
Apriel-v1.6-15B-Thinker
ServiceNow
27.7
146.0 $0.00 Budget
o3-mini (high)
OpenAI
27.7
159.8 $1.93 Budget
DeepSeek V3.1 (Non-reasoning)
DeepSeek
27.6
0.0 $0.83 Budget
Qwen3 VL 235B A22B (Reasoning)
Alibaba
27.4
44.2 $2.63 Standard
Claude 4 Opus (Reasoning)
Anthropic
27.4
45.0 $30.00 Premium
Magistral Medium 1.2
Mistral
27.3
35.8 $2.75 Standard
GPT-5.1 (Non-reasoning)
OpenAI
27.2
86.6 $3.44 Standard
DeepSeek R1 0528 (May '25)
DeepSeek
27.0
0.0 $2.36 Standard
Gemini 2.5 Flash (Reasoning)
Google
27.0
267.3 $0.85 Budget
GPT-5 nano (high)
OpenAI
26.6
126.9 $0.14 Budget
Qwen3 Next 80B A3B (Reasoning)
Alibaba
26.5
182.6 $1.88 Budget
GLM-4.5 (Reasoning)
Z AI
26.5
61.3 $1.00 Budget
Grok Code Fast 1
xAI
26.2
242.3 $0.53 Budget
Qwen3 Max (Preview)
Alibaba
26.1
29.8 $2.40 Standard
o3-mini
OpenAI
25.9
136.4 $1.93 Budget
Kimi K2
Kimi
25.9
47.4 $1.08 Budget
o1-pro
OpenAI
25.8
0.0 $262.50 Premium
GPT-4.1
OpenAI
25.7
81.3 $3.50 Standard
GPT-5 nano (medium)
OpenAI
25.7
123.5 $0.14 Budget
Gemini 2.5 Flash Preview (Sep '25) (Non-reasoning)
Google
25.5
247.9 $0.85 Budget
o1
OpenAI
25.2
191.1 $26.25 Premium
Grok 3
xAI
25.1
36.3 $6.00 Standard
Nova 2.0 Lite (low)
Amazon
24.8
226.5 $0.85 Budget
Qwen3 Coder 480B A35B Instruct
Alibaba
24.6
45.0 $3.00 Standard
Sonar Reasoning Pro
Perplexity
24.6
0.0 $0.00 Budget
gpt-oss-20B (high)
OpenAI
24.5
309.1 $0.10 Budget
NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)
NVIDIA
24.5
224.1 $0.11 Budget
MiMo-V2-Flash (Non-reasoning)
Xiaomi
24.5
105.4 $0.15 Budget
Qwen3 235B A22B 2507 Instruct
Alibaba
24.5
52.1 $1.23 Budget
MiniMax M1 80k
MiniMax
24.4
0.0 $0.83 Budget

🎬 Meilleurs modèles Text-to-Video

Dernière mise à jour: il y a 24 heures
RangModèleCréateurELO Rating
#1Runway Gen-4.5
Runway
1,239
#2Veo 3 Preview (No Audio)
Google
1,235
#3Veo 3 (No Audio)
Google
1,224
#4Kling 2.5 Turbo 1080p
Kuaishou KlingAI
1,222
#5Veo 3.1 Preview (No Audio)
Google
1,219

📹 Meilleurs modèles Image-to-Video

Dernière mise à jour: il y a 24 heures
RangModèleCréateurELO Rating
#1GenFlare 2.0
Baidu
1,332
#2Hailuo 02 0616
MiniMax
1,311
#3Kling 2.5 Turbo 1080p
Kuaishou KlingAI
1,308
#4Avenger 0.5 Pro
Video Rebirth
1,304
#5Veo 3.1 Fast Preview (No Audio)
Google
1,296

🎙️ Meilleurs modèles Text-to-Speech

Dernière mise à jour: il y a 24 heures
RangModèleCréateurELO Rating
#1Inworld TTS 1 Max
Inworld
1,170
#2Speech 2.6 HD
MiniMax
1,151
#3Speech 2.6 Turbo
MiniMax
1,147
#4Speech-02-HD
MiniMax
1,123
#5Speech-02-Turbo
MiniMax
1,121

✏️ Meilleurs modèles Image Editing

Dernière mise à jour: il y a 24 heures
RangModèleCréateurELO Rating
#1GPT Image 1.5 (high)
OpenAI
1,268
#2Nano Banana Pro (Gemini 3 Pro Image)
Google
1,254
#3Riverflow 2 Preview
Sourceful
1,235
#4Seedream 4.5
ByteDance Seed
1,207
#5FLUX.2 [max]
Black Forest Labs
1,205

❓ Pourquoi ce classement ?

Face à l’explosion du nombre de modèles d’IA (GPT, Claude, Gemini, Llama, Mistral…), il devient difficile de s’y retrouver. Ce classement compare plus de 300 modèles des principaux acteurs du marché sur plusieurs dimensions clés :

🎯 Qualité

Performance sur des benchmarks académiques reconnus (MMLU Pro, GPQA, Math-500)

⚡ Vitesse

Rapidité de génération mesurée en tokens par seconde

💰 Prix

Coût par million de tokens pour optimiser votre budget

💻 Coding

Capacités de programmation et d’assistance au développement

🔬 Méthodologie

Source des données

Les données proviennent de Artificial Analysis, une plateforme indépendante qui réalise des tests automatisés sur tous les modèles LLM disponibles publiquement. Notre plugin synchronise automatiquement ces données pour vous garantir un classement toujours à jour.

Critères d’évaluation

Intelligence Index (0-100)

Score composite qui agrège plusieurs benchmarks académiques de référence :

  • MMLU Pro : Questions à choix multiples couvrant 57 domaines de connaissances
  • GPQA : Questions de niveau doctorat en sciences
  • Math-500 : Problèmes mathématiques avancés

Vitesse (tokens/seconde)

Vitesse de génération mesurée en conditions réelles via les API officielles. Plus le score est élevé, plus le modèle génère rapidement du texte (crucial pour les applications temps réel).

Prix ($/1M tokens)

Tarification “blended” calculée avec un ratio 3:1 (3 tokens en entrée pour 1 token en sortie), représentant un usage typique. Les prix évoluent régulièrement avec la compétition du marché.

📖 Comment lire ce tableau ?

🎯 Intelligence Index

Score global de performance intellectuelle. Un score de 85+ indique un modèle “frontier” capable de raisonnement avancé.

  • 90-100 : Excellence (GPT-4, Claude Opus)
  • 80-90 : Très performant
  • 70-80 : Performant
  • < 70 : Basique

⚡ Speed (tokens/s)

Vitesse de génération. Important pour les applications nécessitant des réponses rapides (chatbots, assistance).

  • > 100 tok/s : Très rapide
  • 50-100 tok/s : Rapide
  • 20-50 tok/s : Moyen
  • < 20 tok/s : Lent

💰 Prix ($/1M tokens)

Coût par million de tokens. Les prix ont fortement baissé grâce à la compétition.

  • Gratuit : $0 (modèles open-source)
  • Budget : < $2/1M (GPT-4o mini, Gemini Flash)
  • Standard : $2-10/1M (GPT-4o, Claude Sonnet)
  • Premium : > $10/1M (Claude Opus)

🎨 Badges de prix

Des badges colorés indiquent rapidement la catégorie de prix :

  • 🟢 Budget : Excellent rapport qualité/prix
  • 🔵 Standard : Équilibre performance/coût
  • 🟡 Premium : Qualité maximale

💡 Quel modèle choisir selon votre besoin ?

💻 Développement / Code

Pour de l’assistance au code, privilégiez les modèles avec un fort score Coding : Claude Sonnet 3.5, GPT-4o, DeepSeek Coder.

Ces modèles excellent en génération de code, debugging et explication technique.

✍️ Rédaction / Contenu

Pour créer du contenu, optez pour un bon équilibre qualité/prix : GPT-4o mini, Gemini Pro, Claude Haiku.

Parfaits pour articles, emails, descriptions produits à volume élevé.

🔬 Analyse / Recherche

Pour du raisonnement complexe, choisissez les modèles “frontier” (Intelligence Index > 85) : Claude Opus, GPT-4 Turbo, Gemini Ultra.

Idéaux pour analyse de données, synthèse de recherche, résolution de problèmes.

💸 Usage intensif / Budget

Pour un volume élevé avec budget limité, les modèles open-source ou très abordables : Llama 3, Mistral, Gemini Flash.

Excellent rapport qualité/prix pour applications de production.

📰 Tendances actuelles du marché LLM

✉️ Restez informé des évolutions de l’IA

Abonnez-vous à notre newsletter et suivez nos actualités sur l’intelligence artificielle.

FAQ

À quelle fréquence ce classement est-il mis à jour ?

Les données sont synchronisées automatiquement chaque jour avec l’API d’Artificial Analysis. Vous consultez toujours les derniers résultats disponibles, incluant les nouveaux modèles et mises à jour de prix.

Pourquoi certains modèles connus ne sont pas dans le classement ?

Seuls les modèles accessibles publiquement via API sont testés et comparés. Les modèles privés, en bêta fermée ou sans API publique ne peuvent pas être inclus dans ce classement indépendant.

Le prix affiché est-il le prix réel que je paierai ?

Le prix “blended” est une estimation basée sur un ratio 3:1 input/output qui représente un usage typique. Votre coût réel peut varier selon votre cas d’usage. Consultez toujours la tarification officielle de chaque fournisseur pour des chiffres précis.

Un modèle plus cher est-il forcément meilleur ?

Non ! Le rapport qualité/prix varie énormément. Certains modèles “Budget” comme GPT-4o mini ou Gemini Flash offrent d’excellentes performances pour un coût très faible. Le choix dépend de votre cas d’usage : pour du contenu simple, un modèle budget suffit amplement.

Comment sont calculés les scores de qualité ?

Artificial Analysis utilise des benchmarks académiques standardisés (MMLU Pro, GPQA, Math-500, etc.) et teste tous les modèles dans les mêmes conditions pour garantir une comparaison objective. Les tests sont automatisés et régulièrement mis à jour.

Puis-je utiliser ces données pour mon projet ?

Les données sont fournies par Artificial Analysis via leur API. Pour toute utilisation commerciale ou redistribution, veuillez consulter leurs conditions d’utilisation sur https://artificialanalysis.ai. Ce classement est fourni à titre informatif.

Puis-je réutiliser ces données ?

Oui, pour un usage informatif en citant la source. Vérifiez néanmoins les licences et mentions légales des fournisseurs d’origine.

Quelle différence entre GPT-4, GPT-4 Turbo et GPT-4o ?

GPT-4 est la version originale (mars 2023), GPT-4 Turbo est une version optimisée plus rapide et moins chère, et GPT-4o (“omni”) est la dernière version multimodale (texte + image + audio). GPT-4o offre le meilleur rapport performance/prix de la gamme GPT-4.

Quel est le meilleur modèle pour du code ?

Pour la programmation, Claude Sonnet 3.5, GPT-4o et DeepSeek Coder excellent. Ils offrent d’excellentes capacités de génération de code, debugging et explication technique. Claude Sonnet 3.5 est particulièrement apprécié des développeurs pour sa compréhension du contexte.