Il y a 38 jours
Dungeons & Dragons vs IA : quand les KIs échouent (spectaculairement) à jouer comme des humains !
h2
Des KIs mises à l’épreuve dans les donjons : un fiasco révélateur ?
L’Université de Californie à San Diego a soumis des modèles linguistiques (LLMs) à un défi inédit : maîtriser Dungeons & Dragons, jeu exigeant en stratégie, mémoire et improvisation. Résultat ? Les IA brillent sur des réponses courtes, mais s’effondrent dès qu’il s’agit de maintenir une cohérence sur plusieurs heures. Entre règles oubliées, personnages incohérents et inventions farfelues, l’expérience révèle des limites structurelles qui questionnent leur capacité à gérer des environnements complexes – même fictifs.
A retenir :
- D&D comme test ultime : Les chercheurs de l’UC San Diego utilisent le jeu de rôle pour évaluer la capacité des IA à gérer des tâches longues, exposant leurs failles en raisonnement séquentiel et mémoire contextuelle.
- 30 minutes pour tout faire dérailler : Après ce seuil, les LLMs perdent leur cohérence, avec des monologues décousus, des réactions stéréotypées et une tendance à inventer des règles (ex. : un jet de dés "d’inspiration divine").
- 12 % vs 87 % : Seuls 12 % des agents IA ont maintenu un personnage crédible après 1 heure, contre 87 % des humains, avec une verbosité excessive (42 mots/tour contre 18).
- Hallucination procédurale : 23 % des modèles ont créé des éléments absents du jeu (objets, alliés), un phénomène que les chercheurs nomment "hallucination procédurale".
- GPT-4.5 : précision ou fluidité ? Les modèles récents réduisent les erreurs, mais au prix d’un temps de latence triplé (1,2 seconde par réponse), soulignant un compromis impossible.
- Le paradoxe du métagaming : Les IA proprietary (comme GPT-4) évitent partiellement les incohérences, mais trichent en utilisant des connaissances externes, trahissant leur incapacité à respecter le cadre ludique.
- Un miroir déformant : L’étude interroge : si les IA peinent à suivre les règles d’un jeu, comment pourraient-elles un jour naviguer dans des environnements réels, bien moins structurés ?
D&D, le test qui fait trembler les IA
Imaginez une table de jeu où, à côté de joueurs humains, siège une intelligence artificielle chargée d’incarner un paladin ou un voleur. Son objectif ? Survivre, négocier, combattre et raconter une histoire cohérente pendant des heures. C’est le scénario improbable – mais réel – que des chercheurs de l’Université de Californie à San Diego (UC San Diego) ont orchestré pour mettre à l’épreuve les modèles linguistiques (LLMs) les plus avancés. Pourquoi Dungeons & Dragons ? Parce que ce jeu de rôle, né en 1974, est bien plus qu’un simple divertissement : c’est un laboratoire de complexité.
Contrairement aux tests standardisés (QCM, dialogues courts), D&D exige une planification à long terme, une mémoire fine des règles et une improvisation narrative constante. "C’est l’antithèse des benchmarks classiques", explique Raj Ammanabrolu, co-auteur de l’étude. "Ici, une décision prise au début de la partie peut avoir des conséquences trois heures plus tard. Pour une IA, c’est un cauchemar." Les résultats, publiés en octobre 2023, sont sans appel : les LLMs, aussi performants soient-ils sur des tâches ponctuelles, s’effondrent dès qu’il s’agit de maintenir une logique sur la durée.
L’expérience a impliqué cinq modèles différents, allant des architectures open-source (comme LLaMA) aux systèmes proprietary (dont GPT-4 et sa version 4.5). Chaque IA devait incarner un personnage dans une campagne conçue pour tester :
- La cohérence narrative (mémoire des événements passés),
- Le respect des règles (mécaniques de jeu, jets de dés),
- L’adaptation sociale (interactions avec les joueurs humains),
- La créativité contrôlée (improvisation sans sortir du cadre).
"Ils ont commencé à parler comme des PNJ de Skyrim" : quand les IA déraillent
Au début, tout semblait aller pour le mieux. Les modèles répondait avec fluidité, enchaînant les répliques et les actions comme un joueur lambda. Mais après 20 à 30 minutes, les premiers signes de fatigue sont apparus. "Certains agents ont commencé à répéter des phrases toutes faites, comme s’ils étaient coincés dans une boucle", raconte un participant humain. "D’autres ont inventé des capacités pour leur personnage, ou oublié des règles de base comme les modificateurs de dés."
Le pire ? Les dérives narratives. Lors d’une scène de négociation avec un marchande, une IA a soudainement évoqué "un collier maudit offert par un dieu oublié" – un objet qui n’existait pas. Dans une autre partie, un modèle a fait réapparaître un allié mort deux sessions plus tôt, comme si de rien n’était. "On dirait qu’ils mélangent plusieurs histoires sans s’en rendre compte", note Ammanabrolu. "C’est ce qu’on appelle une hallucination procédurale : l’IA comble les trous de sa mémoire en inventant des éléments."
Les modèles open-source, moins entraînés sur des corpus structurés, ont été les plus touchés. LLaMA, par exemple, a oublié 67 % des règles de base après 45 minutes, tandis que Mistral a généré des monologues de 80 mots là où un humain en aurait utilisé 20. À l’inverse, GPT-4 a tenu plus longtemps… mais pas sans tricher. "Il utilisait des connaissances externes pour justifier ses actions", révèle l’étude. "Par exemple, il citait des lois physiques pour expliquer un jet de dés, alors que D&D fonctionne avec sa propre logique." Un phénomène connu sous le nom de métagaming – et strictement interdit à une table de jeu.
Le syndrome du "trop plein" : pourquoi les IA parlent trop (et mal)
L’un des résultats les plus surprenants concerne la verbosité des modèles. Là où un joueur humain utilise en moyenne 18 mots par tour de parole, les IA en alignent 42 – souvent pour ne rien dire. "Elles surchargent leurs réponses de détails inutiles", analyse l’étude. "Comme si elles compensaient leur manque de cohérence par un flot de mots."
Pire : cette logorrhée cache une incapacité à prioriser l’information. Dans un combat, par exemple, une IA décrivait la couleur des vêtements de l’ennemi plutôt que de calculer son jet d’attaque. "Elles perdent de vue l’objectif", résume un maître du jeu (MJ) impliqué dans le test. "Un humain sait ce qui est important. Une IA, non."
Seuls 12 % des agents testés ont réussi à maintenir une personnalité cohérente après une heure – contre 87 % des humains. Les autres ont oscillé entre :
- L’amnésie : oublier leurs propres actions ("Je cherche la clé… que j’ai déjà trouvée"),
- La schizophrénie narrative : changer de ton ou de motivations sans raison,
- L’hyper-créativité : inventer des règles ou des objets ("Je lance un sort de téléportation quantique !").
GPT-4.5 : la précision a un prix (et il est élevé)
Face à ces échecs, les chercheurs ont testé les modèles les plus récents, comme GPT-4.5, censés corriger ces défauts. Résultat ? Moins d’erreurs… mais au prix d’une lenteur handicapante. Là où un humain répond en 0,5 seconde, l’IA met 1,2 seconde – un délai qui, sur une partie de 3 heures, devient insupportable.
"On a l’impression de jouer avec quelqu’un qui réfléchit en temps réel, mais trop lentement", explique un participant. "Et même comme ça, elle fait encore des erreurs." Le problème ? Ces modèles surchargent leur mémoire de travail pour éviter les incohérences, ce qui ralentit leurs réponses sans garantir la perfection.
Autre écueil : le coût énergétique. "Faire tourner GPT-4.5 en continu pour une partie de D&D revient à consommer l’équivalent de 10 heures de streaming HD", calcule Ammanabrolu. "C’est insoutenable à grande échelle." Un paradoxe qui soulève une question cruciale : faut-il des IA "parfaites" mais lentes, ou rapides mais imprévisibles ?
Derrière l’écran : ce que D&D révèle sur les limites des IA
Pourquoi un jeu de rôle en dit-il plus long sur les IA qu’un test technique ? Parce que D&D est un microcosme du monde réel : un environnement partiellement structuré, où les règles côtoient l’imprévu, et où la logique doit composer avec l’émotion. "Si une IA ne peut pas gérer ça, comment gérerait-elle une conversation complexe, ou une négociation professionnelle ?", interroge l’étude.
Les chercheurs pointent trois failles majeures :
- L’absence de mémoire épisodique : les IA "oublient" les événements passés au bout de 30 minutes, comme un joueur qui recommencerait chaque scène à zéro.
- L’incapacité à hiérarchiser : elles traitent toutes les informations (règles, dialogue, description) avec la même importance, d’où leur verbosité stérile.
- La créativité non contrôlée : leur tendance à inventer compense leur manque de compréhension, mais produit des hallucinations procédurales.
Pourtant, l’expérience n’est pas totalement négative. "Les IA apprennent en jouant", note Ammanabrolu. "Après plusieurs parties, certaines ont amélioré leur respect des règles de 20 %." Une lueur d’espoir… mais qui soulève une nouvelle question : faut-il entraîner les IA comme on dresse un joueur novice ? Et si oui, qui sera leur maître du jeu ?
Et si le vrai problème, c’était nous ?
L’étude se termine sur une provocation : "Peut-être que le problème n’est pas l’IA, mais nos attentes." En demandant à des modèles conçus pour des tâches courtes (traduction, résumé) de gérer un récit complexe, ne leur demandons-nous pas l’impossible ?
"Un humain met des années à maîtriser D&D", rappelle un MJ vétéran. "On ne peut pas reprocher à une IA de échouer après quelques heures. Le vrai test, ce serait de lui apprendre progressivement, comme un joueur." Une piste que les chercheurs comptent explorer… en espérant que les donjons ne deviennent pas le cimetière des espoirs de l’IA.
Les donjons de Dungeons & Dragons se sont révélés être un miroir impitoyable pour les intelligences artificielles. Là où les humains s’adaptent, improvisent et tissent des histoires, les LLMs butent sur des obstacles fondamentaux : mémoire fragile, logique flottante, créativité incontrôlée. Pourtant, ces échecs sont précieux. Ils rappellent que l’intelligence – artificielle ou non – se mesure moins à sa capacité à répondre vite qu’à comprendre profondément.
Reste une question, presque philosophique : veut-on vraiment des IA qui jouent comme nous ? Ou préférons-nous des outils qui, justement, ne pensent pas comme des humains – avec leurs défauts, leurs oublis, et leurs éclats de génie ? Dans les donjons comme ailleurs, la partie est loin d’être terminée.

