LLM Leaderboard : le classement des meilleurs IA et des meilleurs LLM

Benchmark et comparatif des meilleurs LLM, mis à jour automatiquement chaque jour. Données consolidées, couvrant précision, multimodalité, coût et performance. Faites défiler pour explorer les classements par catégorie.

Classement des meilleurs LLM

OrganisationModèleLicenceParam. (B)ContexteEntrée $/MSortie $/MGPQAMMLUMMLU Pro
xAI xAI Grok-4 Heavy Propriétaire - 0 - - 88.4%
xAI xAI Grok-4 Propriétaire - 256,000 $3.00 $15.00 87.5%
Google Google Gemini 2.5 Pro Preview 06-05 Propriétaire - 1,048,576 $1.25 $10.00 86.4%
OpenAI OpenAI GPT-5 Propriétaire - 400,000 $1.25 $10.00 85.7%
xAI xAI Grok 4 Fast Propriétaire - 2,000,000 $0.20 $0.50 85.7%
Anthropic Anthropic Claude 3.7 Sonnet Propriétaire - 200,000 $3.00 $15.00 84.8%
xAI xAI Grok-3 Propriétaire - 128,000 $3.00 $15.00 84.6%
xAI xAI Grok-3 Mini Propriétaire - 128,000 $0.30 $0.50 84.0%
Anthropic Anthropic Claude Sonnet 4.5 Propriétaire - 200,000 $3.00 $15.00 83.4%
OpenAI OpenAI o3 Propriétaire - 200,000 $2.00 $8.00 83.3%
Google Google Gemini 2.5 Pro Propriétaire - 1,048,576 $1.25 $10.00 83.0%
Google Google Gemini 2.5 Flash Propriétaire - 1,048,576 $0.30 $2.50 82.8%
OpenAI OpenAI GPT-5 mini Propriétaire - 400,000 $0.25 $2.00 82.3%
OpenAI OpenAI o4-mini Propriétaire - 200,000 $1.10 $4.40 81.4%
Qwen Qwen Qwen3-235B-A22B-Thinking-2507 Open 235 256,000 $0.30 $3.00 81.1%
Deepseek Deepseek DeepSeek-R1-0528 Open 671 131,072 $0.50 $2.15 81.0%
Zai Org Zai Org GLM-4.6 Open 357 131,072 $0.60 $2.00 81.0%
Anthropic Anthropic Claude Opus 4.1 Propriétaire - 200,000 $15.00 $75.00 80.9%
OpenAI OpenAI GPT OSS 120B Open 116.8 131,072 $0.09 $0.45 80.1%
Deepseek Deepseek DeepSeek-V3.2-Exp Open 685 163,840 $0.27 $0.41 79.9%
Source: llm-stats.com

Classements IA

Meilleurs modèles et fournisseurs d’API dans chaque catégorie

Aider Polyglot Benchmark
Meilleur LLM – Code
1 GPT-5
1.0%
2 Gemini 2.5 Pro Preview 06-05
2.0%
3 o3
3.0%
4 Gemini 2.5 Pro
4.0%
5 DeepSeek-V3.2-Exp
5.0%
Top 5 Source: Llm-stats
MMMU Benchmark
Meilleur LLM – Multimodal
1 GPT-5
1.0%
2 Gemini 2.5 Pro Preview 06-05
2.0%
3 o3
3.0%
4 Gemini 2.5 Pro
4.0%
5 DeepSeek-V3.2-Exp
5.0%
Top 5 Source: Llm-stats
GPQA Benchmark
Meilleur LLM – Connaissances
1 GPT-5
1.0%
2 Gemini 2.5 Pro Preview 06-05
2.0%
3 o3
3.0%
4 Gemini 2.5 Pro
4.0%
5 DeepSeek-V3.2-Exp
5.0%
Top 5 Source: Llm-stats
Max Input Tokens
Contexte le plus long
1 GPT-5
1
2 Gemini 2.5 Pro Preview 06-05
2
3 o3
3
4 Gemini 2.5 Pro
4
5 DeepSeek-V3.2-Exp
5
Top 5 Source: Llm-stats
Coût d’entrée
Fournisseur API le moins cher
1 GPT-5
1
2 Gemini 2.5 Pro Preview 06-05
2
3 o3
3
4 Gemini 2.5 Pro
4
5 DeepSeek-V3.2-Exp
5
Top 5 Source: Llm-stats
Débit
Fournisseur API le plus rapide
1 GPT-5
1
2 Gemini 2.5 Pro Preview 06-05
2
3 o3
3
4 Gemini 2.5 Pro
4
5 DeepSeek-V3.2-Exp
5
Top 5 Source: Llm-stats
Dernière mise à jour : 2025-11-10 12:43:57

FAQ

Quelles sont vos sources de données ?

Nous agrégeons automatiquement les chiffres publics de LLM Stats (tableau et cartes) afin de proposer un classement synthétique.

À quelle fréquence le classement est-il mis à jour ?

Quotidiennement via un script automatisé. Un rafraîchissement manuel peut ponctuellement être déclenché si besoin.

Que signifient les catégories (Code, Multimodal, Connaissances, Contexte, Coût, Débit) ?

Code (Aider Polyglot) / Multimodal (MMMU) / Connaissances (GPQA) : scores de benchmark en %.
Contexte : longueur maximale d’entrée (en tokens).
Coût : prix d’input par 1M tokens. Débit : tokens générés par seconde.

Comment lire “$/1M tokens” ?

C’est le coût facturé pour traiter un million de tokens d’entrée (hors sortie). Les tarifs peuvent varier selon le modèle et la région.

Débit (tokens/s) = latence ?

Non. Le débit mesure la vitesse de génération soutenue ; la latence initiale n’est pas directement représentée.

Pourquoi un modèle n’apparaît pas (ou plus) ?

Il peut être absent des tableaux publics, renommé, ou retiré temporairement par son fournisseur. Nous reflétons l’état public du moment.

Pourquoi mon score/prix diffère de ce que j’observe ?

Les fournisseurs ajustent fréquemment modèles et tarifs. Les écarts viennent aussi des conditions de test (versions, régions, quotas).

Puis-je réutiliser ces données ?

Oui, pour un usage informatif en citant la source. Vérifiez néanmoins les licences et mentions légales des fournisseurs d’origine.

Comment signaler une erreur ou suggérer un ajout ?

Contactez-nous via la page contact avec le modèle concerné et une source publique (page prix, doc ou benchmark).

IA vs LLM, c’est quoi la différence ici ?

Nous utilisons “IA” au sens large et “LLM” pour désigner les modèles de langage évalués ; le classement cible principalement les LLM et leurs API.