14 июня 2026 г.
Быстрая модель только что поумнела
Два года при выборе модели вы шли на компромисс: быстро и дёшево — или умно и медленно. Gemini 3.5 Flash его сломала. Тир «Flash» — дешёвый и быстрый — теперь набирает 55 в Artificial Analysis Intelligence Index, обгоняя Grok 4.3 и Claude Sonnet 4.6, и при этом выдаёт больше 280 токенов в секунду. Быстрая модель больше не глупая. Это повод заново открыть решение, которое большинство команд тихо заморозили год назад: какая модель у вас по умолчанию и та ли она. Разбираем, как думать об этом — включая подвох.
Два года выбор ИИ-модели означал компромисс. Быстро и дёшево — или умно и медленно. Тяжёлые рассуждения вы отдавали большой дорогой модели и ждали, пока она перемалывает; простой объёмный поток — маленькой быстрой и мирились с тем, что она чуть глупее. Скорость стоила вам интеллекта. Все строили вокруг этого допущения.
И это допущение только что получило серьёзный удар. Gemini 3.5 Flash от Google — модель Flash, тот самый тир, который должен быть дешёвым и быстрым, — теперь набирает 55 в Artificial Analysis Intelligence Index, обгоняя Grok 4.3 с 53 и Claude Sonnet 4.6 с 52, и при этом работает на скорости больше 280 токенов в секунду — примерно на 70% быстрее предыдущей версии. Быстрая модель больше не глупая. Объясню, почему это заслуживает вашего внимания и где подвох.
Компромисс, вокруг которого вы строили, ослаб
Сама причина, по которой у вас были «умная модель» и «быстрая модель», была в том, что обе сразу не получались. Интеллект жил на одном конце шкалы, скорость — на другом, и ваша архитектура на деле была чередой ставок о том, где на этой шкале место каждой задаче.
Когда быстрая модель показывает интеллект топ-уровня, шкала перестаёт быть прямой линией. Теперь из одного вызова можно получить и почти фронтирные ответы, и фронтирную скорость. Это не значит, что крупнейшие модели бессмысленны — они по-прежнему ведут на по-настоящему самых тяжёлых рассуждениях. Это значит, что разрыв сузился настолько, что много работы, которую вы по привычке отправляли медленной дорогой модели, теперь может идти к чему-то втрое быстрее и не стать заметно хуже.
Ваша «модель по умолчанию» — скорее привычка, чем решение
Вот часть, которая реально стоит командам денег. Большинство из нас выбрали модель по умолчанию где-то в 2024-м или начале 2025-го, вшили её и больше не возвращались. А таблица лидеров тем временем тасуется примерно раз в месяц. Ваш дефолт — это снимок того, кто был лучшим на неделе выбора, замороженный в вашем коде.
Оставлять это на автопилоте дорого, потому что рынок моделей движется быстрее почти любого решения в вашем стеке. Модель, которая год назад была явно лучшей, сегодня может быть медленнее, глупее и дороже тира, который вы отмели как «дешёвый» вариант. Узнать можно только одним способом — посмотреть заново, а почти никто этого не делает.
Подвох: «быстро» больше не значит «дешевле всего»
Теперь честная сноска, потому что заголовок её прячет. Новая волна быстрых моделей ещё и заметно подорожала — Google вслед за Anthropic и OpenAI поднял цены на новые, лучшие модели. Так что «Flash догнал по интеллекту» автоматически не означает «Flash — тот дешёвый выбор, каким был раньше». Тиры перемешиваются: быстрая модель может быть умной и недешёвой; старая — дешёвой и неумной.
Именно поэтому выбирать по репутации больше нельзя. «Flash = дёшево, Opus = умно» было чистой ментальной моделью — и теперь она неверна в обе стороны. Три вещи, которые вам реально важны — качество, задержка и цена, — больше не движутся вместе, так что смотреть надо на все три, под вашу задачу, с настоящими цифрами.
Что делать
Перебенчмаркайте на своей нагрузке. Не на таблице лидеров — на ваших реальных промптах, вашей реальной планке качества, вашем реальном объёме. Возьмите задачу, которую вы шлёте модели по умолчанию, и прогоните на двух-трёх актуальных вариантах, включая быстрый тир, который раньше бы отмели. Замерьте качество, задержку, цену за вызов. Потом решайте — помня, что у ответа срок годности примерно квартал.
Итог
Компромисс «скорость против интеллекта», вокруг которого строился любой выбор модели, только что сильно размылся: быстрый тир показывает оценки топ-уровня, а ценовые тиры перемешиваются вместе с ним. Фронтир сдвинулся. Ваши дефолты — нет.
Модель, которую вы выбрали год назад, — это годовалое решение в рынке, который обновляется ежемесячно, а «быстро», «умно» и «дёшево» больше не одна и та же ось. Откройте выбор заново, измерьте на своей задаче и привыкните делать это по расписанию. Компромисс, вокруг которого вы строили, не исчез — просто это уже не тот, что вы заучили.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.