4 июня 2026 г.
Счёт пришёл
Два года стоимость ИИ ощущалась как погрешность округления. В 2026-м пришёл инвойс — Uber сжёг годовой AI-бюджет за четыре месяца, Microsoft отобрал Claude Code у своих же инженеров, JPMorgan говорит, что токены съедают прибыль интернета. Это не временный всплеск. Токен-биллинг переворачивает экономику, на которой построен софт, и злая ирония в том, что агент получше стоит дороже. Вот что реально изменилось — честно.
Примерно два года стоимость использования ИИ была тем, о чём ты не думал. В демо это были копейки. В питч-деке — сноска. Все строили так, будто интеллект в их продукте практически бесплатен: зови лучшую модель на всё, дай агенту крутиться сколько влезет, сначала масштабируйся, а о счёте не думай никогда.
В 2026-м счёт пришёл, и это не сноска.
Паника по поводу затрат — настоящая
Этой весной цифры перестали быть абстрактными. Uber сжёг весь годовой AI-бюджет за четыре месяца. Microsoft тихо отозвал лицензии на Claude Code у большинства собственных инженеров и пересадил их на более дешёвый внутренний инструмент. ИИ-консультант рассказал Axios, что один из его клиентов потратил полмиллиарда долларов за один месяц на Claude. JPMorgan выпустил записку с жизнерадостным заголовком «AI Token Costs Are Eating Up Internet Profits» («Стоимость токенов съедает прибыль интернета»). И лишь 14% финансовых директоров говорят, что видят понятную, измеримую отдачу от того, что тратят.
Самую прямую формулировку выдал руководитель Nvidia, когда расходы на ИИ обогнали фонд оплаты труда: стоимость compute теперь далеко превосходит стоимость сотрудников. Вдумайся. Инструмент, призванный удешевить людей, стал дороже людей.
Почему это не временный всплеск
Было бы утешительно назвать это временным скачком — цены упадут, само рассосётся. Цены за токен действительно падают, и тебя это всё равно не спасёт, потому что проблема структурная. Токен-биллинг переворачивает экономику, на которой построен софт.
Магия софта была в почти нулевой предельной стоимости. Ты строишь один раз, и десятитысячный пользователь обходится тебе почти во столько же, сколько первый. Именно поэтому «масштабируйся сейчас, монетизируй потом» работает — обслужить больше людей почти бесплатно. ИИ это ломает. Каждое использование жжёт токены, так что стоимость растёт с использованием и никогда не выходит на плато. Хуже: агент — это не один вызов модели, он крутится, планирует, зовёт инструменты, рефлексирует. Агентный ИИ может потреблять в 1000 раз больше токенов, чем простой запрос, а Goldman Sachs ждёт, что агенты разгонят спрос на токены в 24 раза к 2030 году.
Вот часть, которая должна перепрошить твоё мышление: с токенами сделать агента лучше зачастую значит сделать его дороже. Больше рассуждения, больше шагов, больше контекста — больше возможностей — это больше токенов. У привычного софтового инстинкта «сделай поумнее» теперь висит счётчик. Один анализ нашёл, что токен-налог съедает 23% выручки у ИИ-компаний на стадии масштабирования, фиксируя валовую маржу примерно на 30 пунктов ниже нормы SaaS. Этот разрыв — не баг, который ты заоптимизируешь. Это новая физика.
Часть, которую мы сделали себе сами
Теперь честная половина, потому что паника — не только из-за цены модели, многое мы навлекли сами. Несколько компаний стимулировали жечь токены. Meta и другие гоняли внутренние лидерборды, ранжируя сотрудников по числу использованных токенов, и люди делали рациональное: они весь день кидали всё подряд в агентов, чтобы залезть повыше в рейтинге. Это назвали «tokenmaxxing», и оно выдало ровно то, что измеряло: максимум трат, а не максимум пользы. Аналитическая фирма Faros AI и вовсе нашла, что при плотном использовании ИИ «code churn» — строки, написанные и тут же удалённые — подскочил более чем на 800%. Многие из этих дорогих токенов сгенерировали код, который тут же выбросили.
Так что счёт — это две вещи стопкой: реальная, структурная стоимость инференса, и поверх — провал дисциплины: обращаться с платным ресурсом так, будто он бесплатный, да ещё и награждать людей за его трату.
Что это на самом деле значит
Это не «ИИ не работает». Это «ИИ никогда не был бесплатным, а мы два года строили продукты, делая вид, что он бесплатный». Коррекция здоровая, и она убивает ровно те привычки, что надо. Ленивый плейбук — навести самую дорогую модель на всё, дать агентам крутиться без предела, не смотреть на счётчик — вот что умирает. На смену приходит старейшая добродетель инженерии: эффективность как фича, а не как мысль постфактум.
И заметь, кто не паникует. Команды, которые уже маршрутизировали скучные 90% работы на дешёвые модели, заземляли, чтобы агент не жёг токены, барахтаясь, и держали агентов узкими вместо одного god-агента, крутящегося вечно, — они заложили это с самого начала, потому что относились к токенам как к реальной стоимости, которой те всегда и были. Паника по затратам — по большей части расплата для всех, кто этого не делал.
Эпоха дешёвых демо кончилась. Каждый ИИ-продукт теперь обязан ответить на вопрос, на который должен был отвечать с самого начала: стоит ли это тех токенов, что оно жжёт? Это не кризис. Это просто математика, которая появилась — с небольшим опозданием и очень громко.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.