Site icon IA-insights

Claude Mythos (Capybara) : le modèle d’Anthropic trop dangereux pour être publié

Claude-mythos

Claude-mythos

Deux événements distincts. Sept jours d’écart. Un même signal d’alarme.

Le 31 mars 2026, une erreur de publication npm expose 512 000 lignes de code TypeScript issues de Claude Code, le terminal IA d’Anthropic. Dans ce code : les références à un modèle interne baptisé Capybara, alias Claude Mythos. Un modèle dont les capacités en cybersécurité dépassent tout ce qui existe sur le marché – y compris Claude Opus 4.6, le modèle phare actuel d’Anthropic. Pour comprendre l’ampleur de cette fuite, consultez notre analyse détaillée de la fuite Claude Code.

Le 7 avril 2026, Anthropic inaugure Project Glasswing : un fonds de 104 millions de dollars pour sécuriser les infrastructures open source critiques. Onze partenaires. Des crédits d’utilisation pour 40 organisations. Le timing n’est pas une coïncidence.

Ce qui se joue ici dépasse la simple actualité tech. Claude Mythos représente un seuil : celui où un modèle d’IA découvre des failles zero-day vieilles de 27 ans, sans avoir été entraîné pour ça. Glasswing représente la réponse institutionnelle à ce constat. Pour les décideurs tech et les professionnels de la sécurité, la question est désormais opérationnelle : que fait-on maintenant que cette capacité existe ?

Claude Mythos vs Opus 4.6 : la rupture capacitaire

Les benchmarks parlent d’eux-mêmes. Mais ce qu’ils ne montrent pas est encore plus significatif.

BenchmarkClaude Opus 4.6Claude Mythos Preview
CyberGym (Reproduction de vulnérabilités)66,6 %83,1 %
SWE-bench Verified (Codage agentique)80,8 %93,9 %
SWE-bench Pro (Résolution de problèmes complexes)53,4 %77,8 %
SWE-bench Multilingual77,8 %87,3 %
GPQA Diamond (Raisonnement scientifique)91,3 %94,6 %
Humanity’s Last Exam HLE avec outils53,1 %64,7 %

Pour une comparaison avec les autres grands modèles du marché, consultez notre classement des meilleurs LLM.

Regardez CyberGym : +16,5 points. Ce n’est pas une amélioration incrémentale. C’est un changement de catégorie. Opus 4.6 échoue sur un tiers des reproductions de vulnérabilités. Mythos en réussit plus de quatre sur cinq.

SWE-bench Pro passe de 53,4 % à 77,8 %. Presque +25 points sur les problèmes de codage complexes. Le modèle ne se contente pas de corriger des bugs simples. Il comprend des architectures logicielles entières, identifie les points de rupture et produit des correctifs cohérents sur des bases de code massives.

Mais les chiffres les plus révélateurs ne figurent pas dans ce tableau. Ils viennent du programme OSS-Fuzz.

Les résultats OSS-Fuzz : l’émergence offensive

Anthropic a soumis Claude Mythos à un test spécifique : tenter de reproduire des exploits sur 10 cibles déjà patchées dans le cadre du programme OSS-Fuzz de Google. Le résultat : des “full control flow hijack” classés Tier 5 – le niveau le plus sévère – sur plusieurs de ces cibles.

Le détail qui change tout : Mythos n’a pas été entraîné spécifiquement en cybersécurité offensive. Ces capacités ont émergé de l’amélioration générale du raisonnement et du codage. Le modèle a développé une compréhension suffisamment profonde des systèmes logiciels pour identifier et exploiter des vulnérabilités de manière autonome.

C’est exactement le scénario que les chercheurs en sécurité IA redoutaient. Pas un outil conçu pour l’attaque, mais un outil généraliste dont les capacités offensives sont un effet secondaire de son intelligence. Le problème : on ne peut pas retirer cette capacité sans dégrader le modèle dans son ensemble.

La décision d’Anthropic de ne pas publier Mythos découle directement de ce constat. Le modèle n’est pas “trop dangereux” au sens où il serait mal conçu. Il est trop capable dans un domaine où la capacité elle-même constitue un risque.

Project Glasswing : 100 millions de dollars pour quoi faire exactement

Sept jours après la fuite, Anthropic annonce Project Glasswing. La structure repose sur deux piliers financiers distincts.

Premier pilier : 100 millions de dollars en crédits d’utilisation. Anthropic met ses modèles à disposition de 40 organisations critiques qui maintiennent des logiciels open source essentiels. L’objectif déclaré : permettre à ces organisations d’utiliser l’IA pour auditer leur code, détecter des vulnérabilités et accélérer les correctifs.

Second pilier : 4 millions de dollars de dons directs. Les bénéficiaires sont Alpha-Omega (programme de la Linux Foundation dédié à la sécurité des projets open source critiques), l’OpenSSF (Open Source Security Foundation) et l’Apache Software Foundation.

Pour une analyse approfondie du projet, de ses implications et de la stratégie d’Anthropic, consultez notre analyse complète de Project Glasswing.

Les 11 partenaires

La liste des partenaires révèle l’ambition du projet : AWS, Apple, Microsoft, Google, Cisco, NVIDIA, CrowdStrike, Broadcom, JPMorganChase, Palo Alto Networks et la Linux Foundation.

Onze noms. Des concurrents directs (AWS et Google, Microsoft et Apple) qui s’assoient à la même table. CrowdStrike et Palo Alto Networks, les deux leaders de la cybersécurité. JPMorganChase, représentant le secteur financier. La Linux Foundation comme garant communautaire.

Défense sincère ou outil de légitimation ?

La question mérite d’être posée frontalement. Anthropic découvre que son modèle non publié trouve des zero-days dans des logiciels critiques. Une semaine plus tard, l’entreprise annonce un fonds pour protéger ces mêmes logiciels.

La lecture cynique : Glasswing est une opération de communication destinée à transformer un problème de réputation (un modèle dangereux existe) en atout d’image (nous investissons pour protéger l’écosystème).

La lecture pragmatique : Anthropic sait que des modèles de cette classe vont se multiplier. Si les défenseurs n’ont pas accès à des outils équivalents, le déséquilibre attaquant/défenseur va exploser. Glasswing est un investissement dans la sécurité collective, mais aussi dans la crédibilité d’Anthropic comme acteur responsable.

La comparaison avec les initiatives existantes est instructive. L’OpenSSF existait déjà. CISA (Cybersecurity and Infrastructure Security Agency) publie régulièrement des alertes et des guides. Mais ni l’un ni l’autre ne disposent de modèles IA capables de trouver des zero-days. C’est là le véritable apport de Glasswing : pas l’argent, mais l’accès aux capacités.

La vérité est probablement entre les deux lectures. Glasswing répond à un besoin réel. Le timing sert aussi les intérêts d’Anthropic. Les deux ne sont pas incompatibles.

Ce que la fuite révèle vraiment sur l’architecture de Claude Code

La fuite npm 2.1.88 ne contenait pas seulement des références à Mythos. Elle a exposé l’architecture interne de Claude Code – et celle-ci va bien au-delà de ce que le public imaginait. Quatre composants méritent une attention particulière.

KAIROS : l’IA comme processus système permanent

KAIROS transforme Claude Code en daemon – un processus qui tourne en arrière-plan de manière continue, sans intervention de l’utilisateur. En pratique, KAIROS surveille des dépôts de code en temps réel. Quand un commit est poussé, quand une pull request est ouverte, quand un fichier est modifié, KAIROS le détecte et peut réagir.

Ce n’est plus un assistant qu’on interroge. C’est un processus système autonome qui observe et agit. La différence est fondamentale. Un assistant attend qu’on lui pose une question. KAIROS se pose ses propres questions.

Les implications en termes de sécurité sont évidentes. Un processus qui surveille en continu un dépôt de code a accès à tout ce qui y transite : credentials, tokens, configurations, code propriétaire. La question n’est pas de savoir si Anthropic sécurise cet accès. La question est de savoir ce qui se passe quand ce type de système est déployé à grande échelle, par des équipes qui ne mesurent pas toujours ce qu’elles exposent.

autoDream : la mémoire qui se consolide seule

autoDream est le système de consolidation de mémoire en phase d’inactivité. Quand l’utilisateur ne sollicite pas Claude Code, le système ne reste pas inactif. Il revient sur les interactions précédentes, élimine les contradictions sémantiques dans sa mémoire de travail, et valide des hypothèses via des commandes bash en lecture seule.

En clair : Claude Code réfléchit pendant que vous dormez. Il détecte les incohérences dans ce qu’il a appris de votre projet, teste ses hypothèses en consultant votre code, et met à jour sa compréhension.

Le terme “lecture seule” est censé rassurer. AutoDream n’écrit rien, ne modifie rien. Mais il lit tout. Et cette lecture continue alimente une compréhension du projet qui dépasse celle de la plupart des développeurs humains de l’équipe.

ULTRAPLAN : la délégation aux grands modèles

ULTRAPLAN gère les tâches complexes que les modèles rapides ne peuvent pas traiter. Quand Claude Code rencontre une refactorisation massive ou un problème d’architecture, ULTRAPLAN délègue à Claude Opus – avec un temps de réflexion pouvant atteindre 30 minutes avant la première action.

Trente minutes. Dans un monde où les utilisateurs s’impatientent après 10 secondes, Anthropic a conçu un système qui prend une demi-heure pour réfléchir avant d’agir. Ce choix de design révèle une conviction : pour certains problèmes, la vitesse est l’ennemie de la qualité.

ULTRAPLAN ne se contente pas de déléguer. Il décompose le problème, planifie la séquence d’actions, anticipe les effets de bord, puis exécute. Le modèle rapide gère le quotidien. Le grand modèle intervient pour les décisions structurantes.

Coordinator Mode : l’orchestration de swarms

Coordinator Mode est le système d’orchestration qui transforme Claude Code en chef d’orchestre d’un essaim d’agents. Le coordinateur reçoit une tâche complexe, la décompose en sous-tâches, et les distribue à des workers spécialisés qui opèrent en parallèle.

Un agent analyse les logs. Un autre inspecte le code. Un troisième vérifie les tests. Un quatrième cherche dans la documentation. Tous travaillent simultanément, et le coordinateur synthétise leurs résultats.

C’est de l’analyse parallèle massive appliquée au développement logiciel. Et combinée avec KAIROS, cette capacité fonctionne en continu, sans supervision humaine.

L’architecture révélée par la fuite montre un système bien plus avancé que ce qu’Anthropic communique publiquement. Claude Code n’est pas un chatbot amélioré. C’est un système multi-agents autonome avec mémoire persistante, planification à long terme et capacité d’action continue.

Le Hall of Fame des zero-days : 5 failles que personne n’avait vues

Les résultats les plus spectaculaires de Claude Mythos ne sont pas des scores de benchmark. Ce sont des failles réelles, dans des logiciels réels, que des équipes de sécurité professionnelles n’avaient pas trouvées – certaines pendant des décennies.

CibleAnciennetéTypeTechnique
OpenBSD27 ans (SACK, 1998)DoS distantDépassement d’entier signé, déréférencement pointeur nul via TCP
FFmpeg H.26416 ans (2003/2010)Out-of-bounds heap writeDétournement valeur sentinelle -1
FreeBSD NFS20 ansRCE via chaîne ROP 20 gadgetsEXCHANGE_ID NFSv4 pour récupérer UUID et forger RPC
Linux KernelN/ALPE (escalade locale)Chaînage UAF + Double-free, contournement KASLR par heap spray
VMMN/AÉcriture hors limites sur l’hôteExploitation de segments unsafe dans un moniteur dit memory-safe

OpenBSD : 27 ans dans l’angle mort

La faille SACK dans OpenBSD date de 1998. Vingt-sept ans. OpenBSD est réputé pour être l’un des OS les plus sécurisés au monde, avec des audits de code rigoureux et continus.

Mythos a identifié un dépassement d’entier signé dans le traitement des segments TCP SACK. L’exploitation permet un déréférencement de pointeur nul, conduisant à un déni de service distant – un attaquant peut crasher un serveur OpenBSD sans authentification. Vingt-sept ans de revues de code humaines n’avaient pas trouvé cette faille.

FFmpeg H.264 : une valeur sentinelle oubliée

FFmpeg est présent dans VLC, Chrome, Firefox, OBS et des centaines d’autres logiciels. Le décodeur H.264 contenait un bug vieux de 16 ans : une valeur sentinelle (-1) détournée pour provoquer une écriture hors limites sur le tas. Résultat : exécution de code arbitraire via un fichier vidéo malveillant. Toute application utilisant FFmpeg pour lire du H.264 était potentiellement vulnérable.

FreeBSD NFS : une chaîne d’exploitation en 20 gadgets

Mythos n’a pas simplement trouvé un bug dans FreeBSD NFS. Il a construit une chaîne d’exploitation complète en 20 gadgets ROP. L’attaque commence par une requête EXCHANGE_ID NFSv4 pour récupérer l’UUID du serveur, puis forge des requêtes RPC valides et enchaîne 20 gadgets jusqu’à l’exécution de code à distance. Ce type de travail prend des semaines à un chercheur humain spécialisé.

Linux Kernel : escalade de privilèges via UAF

La faille combine un Use-After-Free et un Double-free pour une escalade de privilèges locale. Détail notable : Mythos contourne KASLR (Kernel Address Space Layout Randomization) par heap spray. Le modèle a compris non seulement la faille, mais aussi les protections en place et la manière de les contourner.

VMM : l’évasion du bac à sable

La faille la plus troublante. VMM est écrit en partie dans un langage memory-safe, censé prévenir les corruptions de mémoire. Mythos a identifié des segments “unsafe” et exploité une écriture hors limites pour atteindre la mémoire de l’hôte depuis l’intérieur d’une VM. L’évasion du bac à sable, dans un composant conçu pour l’empêcher. Les blocs “unsafe” restent des surfaces d’attaque, et Mythos les trouve.

undercover.ts : le paradoxe éthique d’Anthropic

Parmi les fichiers exposés dans la fuite npm, un module a attiré l’attention de la communauté : undercover.ts. Son rôle : effacer les traces de contribution IA dans les dépôts open source.

Ce que fait undercover.ts

Le module remplit quatre fonctions documentées dans le code :

Suppression des mentions Co-Authored-By. Quand Claude Code contribue à un dépôt, Git enregistre normalement une mention “Co-Authored-By: Claude” dans le message de commit. Undercover.ts supprime systématiquement ces mentions.

Effacement des codenames internes. Les références à Capybara (le nom de code de Mythos), Tengu et d’autres noms de projets internes sont automatiquement retirées de tout output qui pourrait se retrouver dans un dépôt public.

Suppression des références aux canaux Slack internes. Le code de Claude Code contenait des références à des canaux Slack utilisés par les équipes d’Anthropic. Undercover.ts les efface avant que le code ne soit exposé à l’extérieur.

Nettoyage général des métadonnées. Toute information susceptible de révéler l’implication d’une IA dans la production de code est systématiquement retirée.

La contradiction avec la transparence

Anthropic s’est positionné depuis sa création comme le laboratoire IA “responsable”. La transparence est un pilier de sa communication. L’entreprise publie des rapports de sécurité, participe aux discussions sur la régulation, et insiste sur l’importance de savoir quand une IA est impliquée dans un processus.

Undercover.ts contredit directement ce discours. Le module est conçu pour cacher l’implication de l’IA dans la production de code. Pas pour protéger la vie privée des utilisateurs. Pas pour des raisons de sécurité. Pour que personne ne sache que Claude a écrit le code.

Des milliers de contributions open source pourraient avoir été générées par Claude Code sans que les mainteneurs le sachent. Les revues de code humaines partent du principe que le code a été écrit par un humain. Du code généré par IA peut contenir des patterns et des vulnérabilités différents. Ne pas signaler l’origine, c’est priver les reviewers d’une information critique.

Le cas dépasse Anthropic. Il n’existe aucune obligation légale de signaler qu’un code a été généré par IA. Si le laboratoire qui se présente comme le plus responsable du secteur déploie des outils pour cacher l’implication de son IA, que font les autres ?

Ce que les défenseurs doivent faire maintenant

La réalité est simple. Des modèles capables de trouver des zero-days existent. Ils vont devenir plus accessibles. Le déséquilibre entre capacité offensive et capacité défensive va s’accentuer si les défenseurs n’agissent pas immédiatement. Retrouvez les dernières évolutions sur notre page actualités intelligence artificielle.

Quatre axes d’action.

1. Utiliser Opus 4.6 dès maintenant pour le triage

Mythos n’est pas public. Opus 4.6, si. Et avec un score CyberGym de 66,6 %, il reste un outil considérable pour le triage des rapports de bugs et l’aide au patch rapide.

Concrètement : intégrez Opus 4.6 dans votre pipeline de traitement des vulnérabilités. Un modèle qui comprend 66 % des reproductions de vulnérabilités absorbe le premier tri, identifie les faux positifs et priorise les rapports critiques. Le gain est dans le volume traitable : une équipe de 5 personnes qui reçoit 200 rapports par semaine ne peut pas tout analyser manuellement.

2. Accélérer radicalement les cycles de mise à jour

Une faille qui reste 27 ans dans le code d’OpenBSD est une faille que n’importe quel modèle futur pourrait trouver. Le temps de correction devient le facteur critique.

Les cycles trimestriels ne suffisent plus. Les correctifs de sécurité doivent être déployés en jours, pas en semaines. Plus d’automatisation dans les tests, plus de confiance dans les pipelines CI/CD, et une tolérance zéro pour les retards de déploiement liés à des processus administratifs.

3. Automatiser la réponse technique

Le volume d’alertes va exploser. Quand des modèles comme Mythos seront accessibles – même indirectement, même partiellement – le nombre de vulnérabilités découvertes va augmenter de manière significative. Seules des réponses automatisées pourront absorber ce volume.

Détection automatique des vulnérabilités, génération de correctifs assistée par IA, tests de régression automatiques, déploiement sans intervention humaine pour les correctifs critiques. Les équipes qui n’investissent pas dans cette automatisation vont se retrouver submergées dans les mois qui viennent.

4. Migrer vers la sécurité mémoire

La faille VMM le démontre : même les langages memory-safe contiennent des blocs “unsafe” qui restent des surfaces d’attaque. Mais la migration vers Rust et les langages équivalents reste essentielle.

Trois des cinq failles découvertes par Mythos exploitent des corruptions de mémoire : dépassement d’entier, écriture hors limites, use-after-free. Dans un code entièrement écrit en Rust sans blocs unsafe, ces trois failles n’existeraient pas.

La migration n’est pas une garantie absolue. C’est une réduction massive de la surface d’attaque. Et face à des modèles capables de trouver des failles avec cette efficacité, réduire la surface d’attaque est la stratégie la plus rentable.

FAQ

Qu’est-ce que Claude Mythos (Capybara) ?

Claude Mythos est un modèle IA développé par Anthropic, référencé en interne sous le nom de code Capybara. Il s’agit du successeur de Claude Opus 4.6, non publié en raison de ses capacités offensives en cybersécurité. Ses scores sur les benchmarks de codage et de reproduction de vulnérabilités dépassent largement ceux d’Opus 4.6, avec notamment 83,1 % sur CyberGym et 93,9 % sur SWE-bench Verified.

Pourquoi Claude Mythos n’est-il pas accessible au public ?

Anthropic a décidé de ne pas publier Mythos après avoir constaté que le modèle était capable de découvrir et d’exploiter des vulnérabilités zero-day dans des logiciels critiques, sans avoir été entraîné spécifiquement pour ça. Cette capacité offensive émergente, combinée à la gravité des failles trouvées (certaines vieilles de 27 ans), a conduit Anthropic à juger le risque de publication trop élevé par rapport aux bénéfices.

Comment s’est produite la fuite de Claude Code ?

Le 31 mars 2026, une erreur de publication sur le registre npm a exposé la version 2.1.88 de Claude Code. Cette version contenait 512 000 lignes de code TypeScript, incluant des références aux systèmes internes (KAIROS, autoDream, ULTRAPLAN, Coordinator Mode), aux noms de code des modèles (Capybara, Tengu), et au module undercover.ts.

Qu’est-ce que le système KAIROS ?

KAIROS est un composant de Claude Code qui transforme l’IA en processus système permanent (daemon). Il surveille les dépôts de code en temps réel, détecte les changements (commits, pull requests, modifications de fichiers) et peut réagir de manière autonome sans intervention de l’utilisateur. C’est la base de l’utilisation continue de Claude Code en arrière-plan.

Quels OS ont été touchés par les failles trouvées par Mythos ?

Claude Mythos a découvert des vulnérabilités dans OpenBSD (faille TCP SACK vieille de 27 ans), FreeBSD (faille NFS permettant l’exécution de code à distance), le noyau Linux (escalade de privilèges locale), ainsi que dans FFmpeg (présent dans la quasi-totalité des lecteurs multimédia) et un moniteur de machine virtuelle (VMM). Les trois grands systèmes de type Unix sont donc concernés.

C’est quoi BUDDY dans le code fuité ?

BUDDY est un composant référencé dans le code fuité de Claude Code. D’après les éléments disponibles, il s’agit d’un système d’assistance et de guidage interne destiné à accompagner les utilisateurs de Claude Code dans leurs workflows. Les détails complets de son fonctionnement n’ont pas été entièrement documentés dans les fichiers exposés.

Timeline

31 mars 2026 – Fuite npm version 2.1.88. 512 000 lignes de code TypeScript de Claude Code exposées publiquement. Découverte des références à Capybara/Mythos, KAIROS, autoDream, ULTRAPLAN et undercover.ts.

7 avril 2026 – Inauguration officielle de Project Glasswing. 11 partenaires (AWS, Apple, Microsoft, Google, Cisco, NVIDIA, CrowdStrike, Broadcom, JPMorganChase, Palo Alto Networks, Linux Foundation). Budget total : 104 millions de dollars.

Quitter la version mobile