4 июня 2026 г.
Лаборатории теперь гонятся за ценой, а не за IQ
Два года у запуска флагманской модели был один заголовок: мы самые умные, вот побитый бенчмарк. На Microsoft Build 2026 заголовок сменился — та же лига, что Opus, но ~10x больше output на доллар и на 60% меньше токенов. Хвастовство сместилось с IQ на эффективность, и вся индустрия перестраивается вокруг цены, а не пика возможностей. Вот почему ось перевернулась и что это значит, если ты строишь.
Два года у запуска флагманской модели был ровно один заголовок: мы самые умные. Вот бенчмарк, который мы возглавили, вот соперник, которого мы обошли на очко. Интеллект был всем табло. На конференции Microsoft Build в 2026-м заголовок оказался другим, и в этой разнице — вся история.
Чем Microsoft на самом деле хвасталась
Microsoft представила свои первые внутренние модели во главе с моделью рассуждения MAI-Thinking-1, и на бенчмарках она держится достойно — 97% на AIME, 53% на SWE-Bench Pro, примерно вровень с Opus. Но заметь, что цифра возможностей не была питчем. Питчем была цена. Её напарник, кодинг-модель MAI-Code-1-Flash, решает более трудные задачи на 60% меньшим числом токенов — ниже задержка, ниже стоимость, то, что Microsoft всё время называла «return on token» (отдача на токен). И Microsoft заявила десятикратное улучшение output-токенов на доллар против GPT-5.5. Хвастовство сместилось с «умнее, чем» на «то же качество за десятую часть цены».
Почему ось перевернулась
Две силы столкнули конкуренцию с оси IQ на ось цены, и о обеих я писал.
Первая — паника по затратам. Когда компании жгут годовой AI-бюджет за четыре месяца, «в 10 раз дешевле при том же качестве» — это фраза, которая закрывает сделку, а не «на два очка выше на бенчмарке, о котором никто в финансах не слышал». Стоимость стала связывающим ограничением — значит, стоимость стала тем, на что лаборатории продают.
Вторая — интеллект коммодитизируется. Когда бесплатная open-weight-модель уже в паре процентов от фронтира, быть незначительно умнее почти ничего не стоит, — а быть драматически дешевле при том же качестве стоит целое состояние. Буквально: Google говорит, что её Gemini 3.5 Flash может сэкономить предприятиям более $1 миллиарда в год, и она дёшева по структурным причинам — Google гоняет собственные чипы и токеновый маховик настолько большой, что он повышает эффективность по мере масштабирования. Миллиард долларов — заголовок получше, чем очко на бенчмарке.
Вся индустрия перестраивается вокруг цены
Это не один кейноут. Это форма поля теперь. Microsoft построила собственные модели именно чтобы перестать платить по счёту OpenAI и предлагать более дешёвый инференс на Azure. Google опирается на собственные TPU, чтобы подрезать стоимость обслуживания. Следующую чиповую платформу NVIDIA продают под 10-кратное снижение стоимости инференса, а не 10-кратный скачок возможностей. А цены за токен падают порядка 200x в год. Гонка — это гонка эффективности, сверху донизу.
Что это значит, если ты строишь
Вот хорошая новость, и она награждает ровно ту дисциплину, к которой я призываю. Если ты никогда не хардкодил модель и никогда не ставил на одну свой моат, то каждый из этих эффективных релизов — бесплатный апгрейд маржи. Выходит модель в 10 раз дешевле при том же качестве, ты меняешь одно значение конфига — и твой токеновый счёт падает, а продукт остаётся тем же. Тебе не надо делать ничего хитрого — надо лишь быть сменяемым, чтобы ценовая война работала на тебя. Команды, приварившие себя к одной премиальной фронтир-модели на всё, — те, кого сейчас сжимают, пока остальные собирают экономию.
Честная оговорка
Это не «фронтир-интеллект перестал иметь значение». Для по-настоящему трудного куска задачи ты по-прежнему хочешь лучший мозг, и топовое рассуждение всё ещё стоит как роскошь. Изменился центр тяжести: предельное очко IQ стало дёшево повторить, а предельный доллар — дорого тратить впустую. Так что правильная форма — та, что я описывал раньше: умная модель на трудные 10%, дешёвые эффективные на остальное, и ничего жёстко вшитого, чтобы подставлять каждый новый вариант подешевле в день его выхода.
Лидерборд, который все скриншотят, всё ещё ранжирует IQ. Но гонка, которую лаборатории на самом деле бегут, сместилась к цене, потому что «кто умнее» становится решённым, коммодитизирующимся вопросом, а «кто дешевле при достаточно-хорошем» — открытым, стоящим миллиард долларов в год. Строй так, чтобы когда ответ сменится в следующем квартале — а он сменится — ты собирал экономию, меняя строчку, а не переписывая продукт.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.