Взгляд на «иллюзию мышления»
В бесконечном цикле хайпа вокруг искусственного интеллекта нам часто говорят, что мы стремительно движемся к созданию настоящего Общего искусственного интеллекта (ОИИ). Но что, если движущие силы этого процесса не так мощны, как кажется? Неожиданно исследователи из Apple опубликовали две научные работы, которые стали важной дозой реализма относительно текущего состояния ИИ.

Эти исследования вызвали бурные дебаты, предположив, что впечатляющие способности наших моделей — это скорее искусная иллюзия, чем подлинный интеллект. Давай разберёмся, что они обнаружили и почему это важно.
GSM-Symbolic: когда ИИ не справляется с простой математикой
Первый серьезный вызов был брошен в статье 2024 года под названием «GSM-Symbolic». Команда под руководством исследователей Имана Мирзаде и Мехрдада Фараджтабара создала новый бенчмарк для проверки того, насколько хорошо Большие языковые модели (БЯМ) справляются с математическими рассуждениями. Вместо того чтобы просто проверять, может ли модель дать правильный ответ, они проверяли надёжность её логики.
Результаты оказались показательными:
- Хрупкая логика: Производительность моделей значительно падала, когда исследователи меняли только числа в текстовой задаче, сохраняя при этом основную математическую логику неизменной. Модель, которая могла решить «2+3», могла не справиться с «4+5» в том же контексте.
- Легко отвлекаются: Когда в задачу добавляли всего одну, на первый взгляд релевантную, но в конечном счёте бесполезную деталь, производительность всех ведущих моделей ИИ резко падала — в некоторых случаях на 65%.
- Главный вывод: Исследование убедительно показало, что эти модели не выполняют настоящих логических рассуждений. Вместо этого они занимаются очень продвинутым сопоставлением с образцом, по сути, ища в своих обучающих данных знакомые структуры задач, чтобы найти решение.
Это был первый намёк на то, что под капотом что-то не так. Но именно последующее исследование по-настоящему встряхнуло дискуссию.
«Иллюзия мышления»: ИИ упирается в стену
В июне 2025 года статья под названием «Иллюзия мышления» (The Illusion of Thinking), возглавляемая Паршином Шоджайи и Иманом Мирзаде, продвинула это исследование на шаг вперёд. Команда протестировала так называемые «Большие модели рассуждений» (Large Reasoning Models, LRM) — модели, специально разработанные для решения сложных задач, — на наборе классических логических головоломок с регулируемой сложностью, включая:
- Ханойские башни
- Задачу о переправе через реку
- Прыжки шашками
- Мир кубиков
Результаты были просто ошеломляющими.
- «Обрыв точности»: Модели хорошо справлялись с простыми версиями головоломок. Но по мере увеличения сложности их производительность не снижалась плавно — она обрывалась, резко падая до нуля.
- Парадоксальное масштабирование: Что ещё более странно, сталкиваясь с более сложными задачами, модели часто использовали меньше вычислительных шагов (или «токенов мышления»). Словно ИИ, осознав, что задача превосходит его возможности, просто «сдавался», вместо того чтобы пытаться усерднее.
- Три режима производительности: Исследователи выделили три различные зоны. При низкой сложности стандартные БЯМ иногда показывали себя лучше. При средней сложности преимущество было у специализированных LRM. Но при высокой сложности абсолютно все модели потерпели полный провал.
Вывод исследователей был прямым и сильным: эти модели создают «иллюзию формальных рассуждений», но на самом деле выполняют хрупкое сопоставление с образцом, которое можно сломать чем-то таким простым, как смена имени в головоломке.
Дебаты и мотивация Apple
Естественно, эти выводы не остались без ответа. В научном сообществе разгорелись бурные дебаты. Некоторые критики, как, например, Алекс Лоусен в своей ответной статье «Иллюзия иллюзии мышления» (The Illusion of the Illusion of Thinking), утверждали, что виноваты недостатки в постановке эксперимента — такие как использование нерешаемых версий задачи о переправе или ограничения на количество токенов, которые заставляли модели сдаваться, — а не фундаментальный изъян в самих моделях.
Такие научные споры полезны и необходимы. Но стоит также учитывать контекст. Apple догоняет конкурентов в гонке ИИ. В то время как её конкуренты взлетели на волне бума ИИ, Apple действовала более осторожно. Публикация исследований, подчёркивающих фундаментальные слабости текущего доминирующего подхода, может быть стратегическим шагом, чтобы изменить нарратив и доказать, что более медленный и взвешенный путь разумнее, чем нынешняя философия «масштаб — это всё, что тебе нужно».
Что это значит для будущего ИИ
Последствия исследования Apple глубоки и заставляют нас столкнуться с неудобными вопросами:
- Возможно ли настоящее мышление? Не способны ли текущие архитектуры БЯМ в принципе достичь настоящего, обобщённого мышления, независимо от того, насколько большими они станут?
- Конец законов масштабирования? Это исследование ставит под сомнение преобладающий «закон масштабирования» — идею о том, что простое добавление большего количества данных и вычислительной мощности неизбежно приведёт к большему интеллекту.
- Призыв к инновациям: Если у текущих методов есть жёсткий предел, то для достижения ОИИ могут потребоваться совершенно новые архитектурные инновации, выходящие за рамки трансформерных моделей, на которых основан сегодняшний ИИ.
Исследование Apple не утверждает, что ИИ бесполезен; его мощь как инструмента неоспорима. Однако оно представляет собой отрезвляющий и основанный на фактах контр-нарратив неустанному хайпу. Оно предполагает, что путь к по-настоящему разумным машинам может быть не прямой дорогой вверх, а потребует от нас вернуться к исходной точке.