LLM Leaderboard : le classement des meilleurs IA et des meilleurs LLM

Benchmark et comparatif des meilleurs LLM, mis à jour automatiquement chaque jour. Données consolidées, couvrant précision, multimodalité, coût et performance. Faites défiler pour explorer les classements par catégorie.

Classement des meilleurs LLM

OrganisationModèleLicenceParam. (B)ContexteEntrée $/MSortie $/MGPQAMMLUMMLU Pro
xAI xAI Grok-4 Heavy Propriétaire - 0 - - 88.4% - -
xAI xAI Grok-4 Propriétaire - 256,000 $3.00 $15.00 87.5% - -
Google Google Gemini 2.5 Pro Preview 06-05 Propriétaire - 1,048,576 $1.25 $10.00 86.4% - -
OpenAI OpenAI GPT-5 Propriétaire - 400,000 $1.25 $10.00 85.7% 92.5% -
Anthropic Anthropic Claude 3.7 Sonnet Propriétaire - 200,000 $3.00 $15.00 84.8% - -
xAI xAI Grok-3 Propriétaire - 128,000 $3.00 $15.00 84.6% - -
xAI xAI Grok-3 Mini Propriétaire - 128,000 $0.30 $0.50 84.0% - -
Anthropic Anthropic Claude Sonnet 4.5 Propriétaire - 200,000 $3.00 $15.00 83.4% - -
OpenAI OpenAI o3 Propriétaire - 200,000 $2.00 $8.00 83.3% - -
Google Google Gemini 2.5 Pro Propriétaire - 1,048,576 $1.25 $10.00 83.0% - -
Google Google Gemini 2.5 Flash Propriétaire - 1,048,576 $0.30 $2.50 82.8% - -
OpenAI OpenAI GPT-5 mini Propriétaire - 400,000 $0.25 $2.00 82.3% - -
OpenAI OpenAI o4-mini Propriétaire - 200,000 $1.10 $4.40 81.4% - -
Qwen Qwen Qwen3-235B-A22B-Thinking-2507 Open 235 256,000 $0.30 $3.00 81.1% - 84.4%
Deepseek Deepseek DeepSeek-R1-0528 Open 671 131,072 $0.50 $2.15 81.0% - 85.0%
Zai Org Zai Org GLM-4.6 Open 357 131,072 $0.60 $2.00 81.0% - -
Anthropic Anthropic Claude Opus 4.1 Propriétaire - 200,000 $15.00 $75.00 80.9% - -
OpenAI OpenAI GPT OSS 120B Open 116.8 131,072 $0.09 $0.45 80.1% - -
Deepseek Deepseek DeepSeek-V3.2-Exp Open 685 163,840 $0.27 $0.41 79.9% - 85.0%
Anthropic Anthropic Claude Opus 4 Propriétaire - 200,000 $15.00 $75.00 79.6% - -
Source: llm-stats.com

Classements IA

Meilleurs modèles et fournisseurs d’API dans chaque catégorie

Aider Polyglot Benchmark
Meilleur LLM – Code
1 GPT-5
88.0%
2 Gemini 2.5 Pro Preview 06-05
82.2%
3 o3
81.3%
4 Gemini 2.5 Pro
76.5%
5 DeepSeek-V3.2-Exp
74.5%
Top 5 Source: Llm-stats
MMMU Benchmark
Meilleur LLM – Multimodal
1 GPT-5
84.2%
2 o3
82.9%
3 Gemini 2.5 Pro Preview 06-05
82.0%
4 o4-mini
81.6%
5 Gemini 2.5 Flash
79.7%
Top 5 Source: Llm-stats
GPQA Benchmark
Meilleur LLM – Connaissances
1 Grok-4 Heavy
88.4%
2 Grok-4
87.5%
3 Gemini 2.5 Pro Preview 06-05
86.4%
4 GPT-5
85.7%
5 Claude 3.7 Sonnet
84.8%
Top 5 Source: Llm-stats
Max Input Tokens
Contexte le plus long
1 Llama 4 Scout
10.0M tokens
2 Gemini 1.5 Pro
2.1M tokens
3 Gemini 1.5 Flash
1.0M tokens
4 Gemini 1.5 Flash 8B
1.0M tokens
5 Gemini 2.0 Flash
1.0M tokens
Top 5 Source: Llm-stats
Coût d’entrée
Fournisseur API le moins cher
1 DeepInfra
$0.17 / 1M tokens
2 Novita
$0.17 / 1M tokens
3 Lambda
$0.18 / 1M tokens
4 Groq
$0.20 / 1M tokens
5 Fireworks
$0.22 / 1M tokens
Top 5 Source: Llm-stats
Débit
Fournisseur API le plus rapide
1 Sambanova
639 tokens/s
2 Groq
307 tokens/s
3 Together
98 tokens/s
4 Lambda
94 tokens/s
5 DeepInfra
84 tokens/s
Top 5 Source: Llm-stats
Dernière mise à jour : 2025-10-09 18:07:26

FAQ

Quelles sont vos sources de données ?

Nous agrégeons automatiquement les chiffres publics de LLM Stats (tableau et cartes) afin de proposer un classement synthétique.

À quelle fréquence le classement est-il mis à jour ?

Quotidiennement via un script automatisé. Un rafraîchissement manuel peut ponctuellement être déclenché si besoin.

Que signifient les catégories (Code, Multimodal, Connaissances, Contexte, Coût, Débit) ?

Code (Aider Polyglot) / Multimodal (MMMU) / Connaissances (GPQA) : scores de benchmark en %.
Contexte : longueur maximale d’entrée (en tokens).
Coût : prix d’input par 1M tokens. Débit : tokens générés par seconde.

Comment lire “$/1M tokens” ?

C’est le coût facturé pour traiter un million de tokens d’entrée (hors sortie). Les tarifs peuvent varier selon le modèle et la région.

Débit (tokens/s) = latence ?

Non. Le débit mesure la vitesse de génération soutenue ; la latence initiale n’est pas directement représentée.

Pourquoi un modèle n’apparaît pas (ou plus) ?

Il peut être absent des tableaux publics, renommé, ou retiré temporairement par son fournisseur. Nous reflétons l’état public du moment.

Pourquoi mon score/prix diffère de ce que j’observe ?

Les fournisseurs ajustent fréquemment modèles et tarifs. Les écarts viennent aussi des conditions de test (versions, régions, quotas).

Puis-je réutiliser ces données ?

Oui, pour un usage informatif en citant la source. Vérifiez néanmoins les licences et mentions légales des fournisseurs d’origine.

Comment signaler une erreur ou suggérer un ajout ?

Contactez-nous via la page contact avec le modèle concerné et une source publique (page prix, doc ou benchmark).

IA vs LLM, c’est quoi la différence ici ?

Nous utilisons “IA” au sens large et “LLM” pour désigner les modèles de langage évalués ; le classement cible principalement les LLM et leurs API.