BUSINESS · 3 июля 2026 г.
Модель стала товаром. Чип — нет.
Два года вся игра была в том, какая модель умнее. Эта игра заканчивается: Claude Sonnet 5 вышел с качеством уровня Opus за долю цены, лаборатории гоняются за стоимостью, а не за IQ, и сменить провайдера теперь — это правка конфига. Когда слой способностей становится товаром, ров сползает вниз по стеку — к инференс-кремнию и стойкам. OpenAI только что вытравил собственный чип. Вот что это значит для остальных, кто строит сверху: нижний порог твоей цены за токен задают двумя слоями выше люди, которых ты никогда не встретишь, — так что проектируй с этим в уме.
Посмотри, на чём лаборатории реально конкурируют в этом квартале. Не «наша умеет рассуждать, а их нет». Это цена. Claude Sonnet 5 вышел с почти Opus-уровнем агентного качества за $3 за миллион входных токенов против $5 у Opus — и теперь он по умолчанию. Фронтир-модели сходятся к «достаточно хорошо почти для всего», зазоры между ними сжимаются, и — как я твержу — сменить одну на другую это правка конфига, а не переписывание.
Вот как выглядит превращение в товар. И когда слой, вокруг которого все носились, становится товаром, интересные деньги уходят в другое место.
Когда вершина стека выравнивается, ров сползает вниз
Он сполз к кремнию. За считанные дни до Sonnet 5 OpenAI и Broadcom представили Jalapeño — первый кастомный инференс-чип OpenAI — ускоритель, построенный с нуля под LLM-инференс, нацеленный выжать заметно больше производительности на ватт. Это не проект ради тщеславия. Это признание: если модель — товар, то устойчивое преимущество в том, чтобы обслуживать её дешевле всех, а значит — владеть чипом, стойкой, контрактом на электричество и квотой на фабрике.
Модель никогда не была твоим рвом. В 2026-м она перестала быть рвом и для лаборатории. Ров — это тот, кто гоняет инференс на десятую долю цента дешевле, и решается это на фабрике, а не в промпте.
Что это значит, если ты строишь сверху
Ты арендуешь вычисления у тех, кто теперь в гонке за владение физическим слоем. Ты не контролируешь ни чип, ни дата-центр, ни цену, которую они ставят сверху. Так что перестань делать вид, что цена токена — фиксированный вход, и начни относиться к ней как к волатильной переменной, управляемой сверху:
- Подбирай размер безжалостно. По умолчанию должна быть наименьшая модель, что берёт планку, а не наибольшая из доступных. Сначала тянись к маленькой модели, а дорогую держи для вызовов, которым она реально нужна.
- Роути по сложности, кэшируй по умолчанию. Дешёвая модель на 90%, сильная — на трудные 10%, и кэш впереди, чтобы ни разу не платить дважды за один ответ. Стоимость — это решение архитектуры, а не сюрприз в счёте.
- Держи двух провайдеров тёплыми. Портируемость — это не только страховка от того, что модель погаснет, но и способ гоняться за самым дешёвым достаточным субстратом, пока идёт ценовая война. Прибитый к одному вендору, ты ешь любую маржу, которая ему нужна в этом квартале.
- Владей тем, что не становится товаром. Твои данные, твои эвалы, твой продукт, твой вкус. Чип и модель превращаются во взаимозаменяемые коммуналки. То, что ты строишь вокруг них, — единственное, что таким не становится.
Итог
Эпоха «какая модель умнее» закрывается, и её сменяет драка за то, кто обслужит интеллект дешевле, — идущая на фабриках и в дата-центрах, где у тебя нет места. И ладно. Место тебе не нужно. Тебе нужно строить так, будто то, что ты арендуешь, — товар с ценой, которую ставишь не ты.
Относись к модели как к взаимозаменяемой, а к цене токена — как к погоде сверху. Подбирай размер, роути, кэшируй, оставайся портируемым — и вкладывай свой ров в слой над товаром, потому что это единственный слой, который твой.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.