Un aperçu de l'« illusion de la pensée »

Gábor Bíró 6 septembre 2025
4 min de lecture

Dans le cycle incessant de la hype autour de l'intelligence artificielle, on nous répète que nous sommes sur la voie rapide vers une véritable Intelligence Artificielle Générale (AGI). Mais si les moteurs qui nous y propulsent n'étaient pas aussi puissants qu'ils le paraissent ? Dans un retournement de situation fascinant, des chercheurs d'Apple ont publié deux études qui agissent comme une cruciale piqûre de rappel sur l'état actuel de l'IA.

Un aperçu de l'« illusion de la pensée »

Ces études ont déclenché un débat intense en suggérant que les capacités impressionnantes de nos modèles pourraient être davantage une illusion sophistiquée qu'une véritable intelligence. Plongeons dans leurs découvertes et voyons pourquoi elles sont si importantes.

GSM-Symbolic : quand l'IA échoue aux calculs de base

Le premier grand défi est apparu dans une étude de 2024 intitulée « GSM-Symbolic ». Dirigée par les chercheurs Iman Mirzadeh et Mehrdad Farajtabar, l'équipe a créé un nouveau benchmark pour tester la capacité des grands modèles de langage (LLM) à gérer le raisonnement mathématique. Au lieu de simplement vérifier si un modèle pouvait trouver la bonne réponse, ils ont testé la robustesse de son raisonnement.

Les résultats ont été révélateurs :

  • Une logique fragile : Les performances des modèles chutaient de manière significative lorsque les chercheurs changeaient uniquement les chiffres d'un problème, tout en gardant la logique mathématique sous-jacente identique. Un modèle capable de résoudre « 2+3 » pouvait échouer si on lui demandait de résoudre « 4+5 » dans le même contexte narratif.
  • Facilement distraits : Lorsqu'une seule information, en apparence pertinente mais finalement inutile, était ajoutée à un problème, les performances de tous les principaux modèles d'IA s'effondraient — dans certains cas jusqu'à 65 %.
  • La conclusion principale : L'étude suggérait fortement que ces modèles n'effectuent pas de véritable raisonnement logique. Ils pratiquent plutôt une reconnaissance de motifs très avancée, cherchant essentiellement des structures de problèmes familières dans leurs données d'entraînement pour trouver une solution.

C'était le premier indice que quelque chose n'allait pas sous le capot. Mais c'est l'étude suivante qui a véritablement secoué la discussion.

« L'illusion de la pensée » : l'IA face à un mur

En juin 2025, une étude intitulée « The Illusion of Thinking », menée par Parshin Shojaee et Iman Mirzadeh, a poussé cette enquête encore plus loin. L'équipe a testé des « grands modèles de raisonnement » (LRM) — des modèles spécialement conçus pour la résolution de problèmes complexes — sur une série de casse-têtes logiques classiques à difficulté variable, notamment :

  • Les Tours de Hanoï
  • Le problème du passage de la rivière
  • Le saut de dames
  • Le monde des blocs

Les résultats ont été tout simplement stupéfiants.

  1. La « falaise de précision » : Les modèles fonctionnaient bien sur les versions plus simples des casse-têtes. Mais à mesure que la complexité augmentait, leurs performances ne diminuaient pas progressivement ; elles s'effondraient, chutant de façon spectaculaire jusqu'à une précision de zéro.
  2. Une mise à l'échelle paradoxale : Chose encore plus étrange, face à des problèmes plus difficiles, les modèles utilisaient souvent moins d'étapes de calcul (ou « jetons de pensée »). C'était comme si, en reconnaissant un défi dépassant ses capacités, l'IA « abandonnait » tout simplement au lieu d'essayer plus fort.
  3. Trois régimes de performance : Les chercheurs ont identifié trois zones distinctes. À faible complexité, les LLM standards s'en sortaient parfois mieux. À complexité moyenne, les LRM spécialisés avaient l'avantage. Mais à haute complexité, tous les modèles sans exception ont complètement échoué.

La conclusion des chercheurs était directe et percutante : ces modèles créent « l'illusion d'un raisonnement formel » mais effectuent en réalité une forme fragile de reconnaissance de motifs qui peut être déjouée par quelque chose d'aussi simple que de changer un nom dans un casse-tête.

Le débat et les motivations d'Apple

Naturellement, ces découvertes n'ont pas été sans contestation. La communauté scientifique s'est engagée dans un débat vigoureux. Certains critiques, comme Alex Lawsen dans une réponse intitulée « The Illusion of the Illusion of Thinking », ont soutenu que des défauts dans le protocole expérimental — comme l'utilisation de versions insolubles du problème du passage de la rivière ou des limites de jetons qui forçaient les modèles à abandonner — étaient en cause, et non une faille fondamentale des modèles eux-mêmes.

Ces échanges scientifiques sont sains et nécessaires. Mais il faut aussi considérer le contexte. Apple a joué le rattrapage dans la course à l'IA. Tandis que ses concurrents ont explosé grâce au boom de l'IA, Apple a procédé avec plus de prudence. Publier des recherches qui soulignent les faiblesses fondamentales de l'approche dominante actuelle pourrait être une manœuvre stratégique pour remodeler le discours, en arguant qu'une voie plus lente et plus réfléchie est plus sage que la philosophie actuelle du « la taille est tout ce dont tu as besoin ».

Ce que cela signifie pour l'avenir de l'IA

Les implications des recherches d'Apple sont profondes et nous obligent à affronter des questions inconfortables :

  • Un véritable raisonnement est-il possible ? Les architectures LLM actuelles sont-elles fondamentalement incapables d'atteindre un raisonnement vrai et généralisé, quelle que soit leur taille ?
  • La fin des lois d'échelle ? Cette recherche jette le doute sur la « loi d'échelle » dominante — l'idée que le simple fait d'ajouter plus de données et plus de puissance de calcul mènera inévitablement à une plus grande intelligence.
  • Un appel à l'innovation : Si les méthodes actuelles ont un plafond de verre, alors atteindre l'AGI pourrait nécessiter des innovations architecturales entièrement nouvelles, au-delà des modèles transformers qui alimentent l'IA d'aujourd'hui.

La recherche d'Apple ne prétend pas que l'IA est inutile ; sa puissance en tant qu'outil est indéniable. Cependant, elle offre un contre-discours sobre et fondé sur des preuves face à la hype incessante. Elle suggère que le chemin vers des machines vraiment intelligentes pourrait ne pas être une ligne droite ascendante, mais pourrait nous obliger à retourner à la planche à dessin.

Gábor Bíró 6 septembre 2025