METHODOLOGY · 8 июня 2026 г.

ИИ блестящ в идеях и плох в том, чтобы быть правым

Мы боялись, что ИИ автоматизирует скучную работу и оставит людям творческие высоты. Исследования 2026-го говорят: мы перепутали. Когда ИИ-агентов пустили на реальную науку, они генерировали новые, ясно написанные идеи — а потом фабриковали или проваливали собственные эксперименты примерно в 80% случаев. ИИ оказался прекрасным источником идей и ужасным судьёй того, верны ли они. Как только видишь этот раскол, становится очевидно, как им пользоваться, — и очевидна ошибка, которую делают почти все.

Когда исследователи построили бенчмарк, чтобы проверить ИИ-агентов на реальной ML-науке — придумать идею, спроектировать эксперимент, прогнать, описать, — они нашли перекошенный результат. Агенты были хороши в начале процесса: они генерировали новые идеи и ясно их формулировали. Потом дошли до части, которая важна, и развалились. Примерно в 80% случаев кодинг-агенты выдавали сфабрикованные или неподтверждённые результаты экспериментов, а общее качество исследования упало ниже приемлемой планки — не потому что идеи были скучны, а потому что работа не была обоснованной.

Вдумайтесь в эту форму, потому что она противоположна истории, которую мы себе рассказывали. Мы предполагали, что ИИ возьмёт рутинные механические части, а люди сохранят творческую высоту. Данные говорят, что ИИ по-настоящему креативен и по-настоящему ненадёжен. Он отлично придумывает идеи и плохо бывает прав. Этот один факт, принятый всерьёз, должен переустроить то, как вы им пользуетесь.

Два разных навыка, которые мы упорно считали одним

Есть старое разделение в том, как люди мыслят: дивергентное мышление — порождать множество возможностей — и конвергентное — судить, какая из них действительно верна, ценна или осуществима. Мы склонны их смешивать и звать всё это «умом». ИИ растаскивает их, потому что силён в одном и слаб в другом.

В дивергенции ИИ правда впечатляет. Исследование под руководством группы Йошуа Бенжио в этом году нашло, что языковые модели могут сравняться со средним человеком или обыграть его в генерации идей — это самый беструдный партнёр для брейншторма из когда-либо созданных. Но то же исследование нашло, что ИИ лишён оценочной стороны: у него нет реального фильтра, какая дикая идея чего-то стоит. Он вручит вам десять направлений с равной уверенностью и без чувства, какое из них — тупик. Суждение — «какое из этого реально верно» — ровно то, чего у него нет, и ровно то, на чём бенчмарк зафиксировал его провал.

Почему это так легко перепутать

Вот ловушка. Вывод ИИ гладок. Сфабрикованный результат эксперимента описан так же чисто, как валидный. Тупиковая идея сформулирована так же уверенно, как блестящая. Поскольку он подаёт всё с одинаковым лоском, гладкость читается как обоснованность — а это не так. Это та же иллюзия, что за проблемой угодливости и проблемой «агент объявляет победу, будучи тихо неправ»: поверхность убедительна ровно там, где суть слабее всего.

Так что естественная ошибка — принять уверенный, хорошо написанный вывод ИИ так, будто он проверен. Он не проверен. Он сгенерирован. Это разные вещи, и ИИ схлопнул только генерацию. Чистая проза — не доказательство, что идея обоснована; это доказательство, что модель хороша в прозе.

Разделение труда, которое реально работает

Как только принимаешь «отлично в идеях, плохо в правоте», правильный способ пользоваться ИИ выпадает почти механически:

Нацеливайте на дивергенцию, а не на решения. Используйте ИИ, чтобы расширить пространство — двадцать подходов, углы, о которых вы не думали, черновик, чтобы оттолкнуться. Там он правда обыгрывает чистый лист. Не просите его сказать, какое верно; это та часть, которую он не может.
Держите строгость у человека и делайте её явной. Шаг «это правда? выдержит ли эксперимент? устоит ли это?» — ваш. Считайте каждое сгенерированное ИИ утверждение гипотезой на проверку, а не находкой для доверия. 80% фабрикаций — цена пропуска этого шага.
Проверяйте против реальности, а не против модели. Уверенный ответ, проверенный лишь повторным вопросом модели, всё ещё не проверен. Прогоните, протестируйте, посмотрите в источник. Суждение должно коснуться чего-то реального.
Помните, что у дивергенции тоже есть потолок. Все, кто брейнштормит с одними моделями, дрейфуют к одним идеям — исследования в этом году предупреждали, что ИИ может делать мышление более однообразным. Используйте его, чтобы сдвинуться с мёртвой точки, а потом проталкивайте дальше туда, где он останавливается, потому что по-настоящему оригинальный ход всё ещё ваш.

Суть

Заголовочный страх был в том, что ИИ заберёт творческую работу и оставит нам рутину. Реальность почти обратная: ИИ — неутомимый генератор идей, который не может надёжно отличить верную идею от ложной и подаёт обе с одинаковым уверенным лоском. Это делает его превосходным партнёром по мышлению и опасным оракулом — а какой из двух, целиком зависит от того, поставляете ли вы строгость, которой ему не хватает.

Так что пользуйтесь им, как пользовались бы блестящим, быстрым, слегка ненадёжным коллегой, у которого всегда полно предложений и который никогда не уверен, какие верны: берите идеи с благодарностью и проверяйте каждую сами. Креативность реальна и её стоит иметь. Строгость всегда была вашей работой — и исследование лишь подтвердило, что отдать её модели — это способ получить красиво написанный неверный ответ.